zerogpu-2

Running on Zero

rphrp1985 commited on Jun 14

Commit

ebe0616

•

1 Parent(s): b780ffe

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -63,7 +63,7 @@ model = AutoModelForCausalLM.from_pretrained(model_id, token= token,
                                              torch_dtype=torch.float16,
                                               # load_in_8bit=True,
                                              # #  # torch_dtype=torch.fl,
-                                             # attn_implementation="flash_attention_2",
                                              low_cpu_mem_usage=True,
                                              # device_map='cuda',
                                              # device_map=accelerator.device_map,
@@ -122,7 +122,7 @@ def respond(
     gen_text = tokenizer.decode(gen_tokens[0])
     print(gen_text)
     gen_text= gen_text.replace(input_str,'')
-    gen_text= gen_text.replace('<|END_OF_TURN_TOKEN|>','')
     yield gen_text

                                              torch_dtype=torch.float16,
                                               # load_in_8bit=True,
                                              # #  # torch_dtype=torch.fl,
+                                             attn_implementation="flash_attention_2",
                                              low_cpu_mem_usage=True,
                                              # device_map='cuda',
                                              # device_map=accelerator.device_map,
     gen_text = tokenizer.decode(gen_tokens[0])
     print(gen_text)
     gen_text= gen_text.replace(input_str,'')
+    gen_text= gen_text.replace('<|im_end|>','')
     yield gen_text