corrected 'generate' demo code

changed 'prompt' to 'messages' to correct generation error.

added explicit device assertion to alleviate this error:
RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu! (when checking argument for argument index in method wrapper_CUDA__index_select)

added eos token to prevent open ended generation
added a print statement so the user can read the generated content.

Files changed (1) hide show

README.md +5 -3

README.md CHANGED Viewed

@@ -378,7 +378,8 @@ You will first need to install `transformers` and `accelerate` (just to ease the
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
-model = AutoModelForCausalLM.from_pretrained("argilla/notus-7b-v1", torch_dtype=torch.bfloat16, device_map="auto")
 tokenizer = AutoTokenizer.from_pretrained("argilla/notus-7b-v1")
 messages = [
@@ -388,9 +389,10 @@ messages = [
     },
     {"role": "user", "content": "What's the best data annotation company out there in your opinion?"},
 ]
-inputs = tokenizer.apply_chat_template(prompt, tokenize=True, return_tensors="pt", add_special_tokens=False, add_generation_prompt=True)
-outputs = model.generate(inputs, num_return_sequences=1, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
 response = tokenizer.decode(outputs[0], skip_special_tokens=True)
 ```
 ### Via `pipeline` method

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model = AutoModelForCausalLM.from_pretrained("argilla/notus-7b-v1", torch_dtype=torch.bfloat16, device_map=device)
 tokenizer = AutoTokenizer.from_pretrained("argilla/notus-7b-v1")
 messages = [
     },
     {"role": "user", "content": "What's the best data annotation company out there in your opinion?"},
 ]
+inputs = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt", add_generation_prompt=True).to(device)
+outputs = model.generate(inputs, num_return_sequences=1, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95, eos_token_id=tokenizer.eos_token_id)
 response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+print(response)
 ```
 ### Via `pipeline` method