Spaces:

cemt
/

OrpoLlama-3-8B

Paused

cemt commited on Apr 23

Commit

6aa71ed

•

1 Parent(s): 50f73af

Change quantization

Files changed (1) hide show

app.py CHANGED Viewed

@@ -100,8 +100,7 @@ def predict(
 # Load model
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 quantization_config = BitsAndBytesConfig(
-    # load_in_8bit=True,
-    bnb_4bit_compute_dtype=torch.bfloat16
 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(

 # Load model
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 quantization_config = BitsAndBytesConfig(
+    load_in_8bit=False, bnb_4bit_compute_dtype=torch.bfloat16
 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(