Spaces:

charanhu
/

Charan-SOLAR-10.7B-Instruct-v1.0

Runtime error

charanhu commited on Dec 30, 2023

Commit

7df47b5

•

1 Parent(s): 01951c6

quantization_config

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,9 +1,18 @@
 import gradio as gr
-from transformers import AutoTokenizer, AutoModelForCausalLM
-tokenizer = AutoTokenizer.from_pretrained("TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GPTQ")
 model = AutoModelForCausalLM.from_pretrained("TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GPTQ")
 def generate_response(prompt):
     conversation = [{'role': 'user', 'content': prompt}]
     prompt = tokenizer.apply_chat_template(conversation, tokenizer=False, add_generation_prompt=True)

 import gradio as gr
+from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig
+tokenizer = AutoTokenizer.from_pretrained("TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GPTQ", )
 model = AutoModelForCausalLM.from_pretrained("TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GPTQ")
+# Add the quantization config with disable_exllama=True
+quantization_config = {
+    'disable_exllama': True,
+}
+model = torch.quantization.quantize_dynamic(
+    model, quantization_config=quantization_config,
+)
 def generate_response(prompt):
     conversation = [{'role': 'user', 'content': prompt}]
     prompt = tokenizer.apply_chat_template(conversation, tokenizer=False, add_generation_prompt=True)