seonglae
/

yokhal-md

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

seonglae commited on Mar 5, 2024

Commit

310ffaf

·

verified ·

1 Parent(s): 5daa092

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -59,7 +59,7 @@ model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat1
                                              attn_implementation="flash_attention_2") # if flash enabled
 sys_prompt = '한국어로 대답해'
 texts = ['안녕', '서울은 오늘 어때']
-chats = list(map(lambda t: [{'role': 'user', 'content': f'{sys_prompt}\n{t}'}], texts))
 prompts = list(map(lambda p: tokenizer.apply_chat_template(p, tokenize=False, add_generation_prompt=True), chats))
 input_ids = tokenizer(prompts, return_tensors="pt", padding=True).to("cuda" if device is None else device)
 outputs = model.generate(**input_ids, max_new_tokens=100, repetition_penalty=1.05)

                                              attn_implementation="flash_attention_2") # if flash enabled
 sys_prompt = '한국어로 대답해'
 texts = ['안녕', '서울은 오늘 어때']
+chats = list(map(lambda t: [{'role': 'user', 'content': f'{sys_prompt}\n{t}'}], texts)) # ChatML format
 prompts = list(map(lambda p: tokenizer.apply_chat_template(p, tokenize=False, add_generation_prompt=True), chats))
 input_ids = tokenizer(prompts, return_tensors="pt", padding=True).to("cuda" if device is None else device)
 outputs = model.generate(**input_ids, max_new_tokens=100, repetition_penalty=1.05)