michaelfeil
/

ct2fast-stablelm-7b-sft-v7-epoch-3

@@ -21,15 +21,16 @@ Speedup inference while reducing memory by 2x-4x using int8 inference in C++ on
 quantized version of [OpenAssistant/stablelm-7b-sft-v7-epoch-3](https://huggingface.co/OpenAssistant/stablelm-7b-sft-v7-epoch-3)
 ```bash
-pip install hf-hub-ctranslate2>=2.0.8
 ```
-Converted on 2023-05-22 using
 ```
-ct2-transformers-converter --model OpenAssistant/stablelm-7b-sft-v7-epoch-3 --output_dir /home/michael/tmp-ct2fast-stablelm-7b-sft-v7-epoch-3 --force --copy_files tokenizer.json README.md tokenizer_config.json generation_config.json special_tokens_map.json .gitattributes --quantization float16
 ```
-Checkpoint compatible to [ctranslate2>=3.13.0](https://github.com/OpenNMT/CTranslate2) and [hf-hub-ctranslate2>=2.0.6](https://github.com/michaelfeil/hf-hub-ctranslate2)
-- `compute_type=int8_float16` for `device="cuda"`
 - `compute_type=int8`  for `device="cpu"`
 ```python
@@ -40,14 +41,15 @@ model_name = "michaelfeil/ct2fast-stablelm-7b-sft-v7-epoch-3"
 # use either TranslatorCT2fromHfHub or GeneratorCT2fromHfHub here, depending on model.
 model = GeneratorCT2fromHfHub(
         # load in int8 on CUDA
-        model_name_or_path=model_name,
         device="cuda",
         compute_type="int8_float16",
         # tokenizer=AutoTokenizer.from_pretrained("OpenAssistant/stablelm-7b-sft-v7-epoch-3")
 )
 outputs = model.generate(
-    text=["def print_hello_world():", "def hello_name(name:"],
-    max_length=64
 )
 print(outputs)
 ```

 quantized version of [OpenAssistant/stablelm-7b-sft-v7-epoch-3](https://huggingface.co/OpenAssistant/stablelm-7b-sft-v7-epoch-3)
 ```bash
+pip install hf-hub-ctranslate2>=2.0.8 ctranslate2>=3.14.0
 ```
+Converted on 2023-06-02 using
 ```
+ct2-transformers-converter --model OpenAssistant/stablelm-7b-sft-v7-epoch-3 --output_dir /home/michael/tmp-ct2fast-stablelm-7b-sft-v7-epoch-3 --force --copy_files tokenizer.json README.md tokenizer_config.json generation_config.json special_tokens_map.json .gitattributes --quantization int8_float16 --trust_remote_code
 ```
+Checkpoint compatible to [ctranslate2>=3.14.0](https://github.com/OpenNMT/CTranslate2)
+and [hf-hub-ctranslate2>=2.0.8](https://github.com/michaelfeil/hf-hub-ctranslate2)
+- `compute_type=int8_float16` for `device="cuda"`
 - `compute_type=int8`  for `device="cpu"`
 ```python
 # use either TranslatorCT2fromHfHub or GeneratorCT2fromHfHub here, depending on model.
 model = GeneratorCT2fromHfHub(
         # load in int8 on CUDA
+        model_name_or_path=model_name,
         device="cuda",
         compute_type="int8_float16",
         # tokenizer=AutoTokenizer.from_pretrained("OpenAssistant/stablelm-7b-sft-v7-epoch-3")
 )
 outputs = model.generate(
+    text=["def fibonnaci(", "User: How are you doing? Bot:"],
+    max_length=64,
+    include_prompt_in_result=False
 )
 print(outputs)
 ```

model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26f928a83c8c64129b8c886e2f9dd86b86e0f7583c2cadcb7583bc0cbe3a5058
-size 15733850934

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3bd76d168dcf22eaf748347ef746a59cd340a1726715d6851ec5bf51c664fda
+size 7872100730