dfurman
/

HermesBagel-34B-v0.1

Text Generation

NousResearch/Nous-Hermes-2-Yi-34B

jondurbin/bagel-dpo-34b-v0.2

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

dfurman commited on Jan 13, 2024

Commit

c8c30fe

·

verified ·

1 Parent(s): 82ffd7d

Update README.md

Files changed (1) hide show

README.md +53 -11

README.md CHANGED Viewed

@@ -35,27 +35,69 @@ parameters:
 dtype: bfloat16
 ```
-## 💻 Usage
 ```python
 !pip install -qU transformers accelerate
-from transformers import AutoTokenizer
-import transformers
 import torch
 model = "dfurman/HermesBagel-34B-v0.1"
-messages = [{"role": "user", "content": "What is a large language model?"}]
 tokenizer = AutoTokenizer.from_pretrained(model)
-prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-pipeline = transformers.pipeline(
-    "text-generation",
-    model=model,
-    torch_dtype=torch.float16,
     device_map="auto",
 )
-outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
-print(outputs[0]["generated_text"])
 ```

 dtype: bfloat16
 ```
+## Basic Usage
+<details>
+<summary>Setup</summary>
 ```python
 !pip install -qU transformers accelerate
+from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 model = "dfurman/HermesBagel-34B-v0.1"
 tokenizer = AutoTokenizer.from_pretrained(model)
+model = AutoModelForCausalLM.from_pretrained(
+    model,
+    torch_dtype=torch.bfloat16,
     device_map="auto",
+    trust_remote_code=True,
+)
+```
+</details>
+```python
+messages = [
+    {"role": "user", "content": "What is a large language model?"},
+]
+print("\n\n*** Prompt:")
+input_ids = tokenizer.apply_chat_template(
+    messages,
+    tokenize=True,
+    return_tensors="pt",
+)
+print(tokenizer.decode(input_ids[0]))
+print("\n\n*** Generate:")
+with torch.autocast("cuda", dtype=torch.bfloat16):
+    output = model.generate(
+        input_ids=input_ids.to("cuda"),
+        max_new_tokens=256,
+        return_dict_in_generate=True,
+        do_sample=True,
+        temperature=0.7,
+        top_k=50,
+        top_p=0.95
+    )
+response = tokenizer.decode(
+    output["sequences"][0][len(input_ids[0]):],
+    skip_special_tokens=True
 )
+print(response)
+```
+**Outputs**
+```python
+"""
+coming
+"""
 ```