harithapliyal
/

llama-3-8b-bnb-4bit-finetuned-SentAnalysis

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

harithapliyal commited on Sep 6, 2024

Commit

cdf651e

·

verified ·

1 Parent(s): c811d3e

Update README.md

Files changed (1) hide show

README.md +4 -1

README.md CHANGED Viewed

@@ -42,14 +42,17 @@ from unsloth import is_bfloat16_supported
 from transformers import AutoModelForCausalLM, BitsAndBytesConfig
 # Configure the quantization
 bnb_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_use_double_quant=True,
     bnb_4bit_quant_type="nf4",
     bnb_4bit_compute_dtype="float16"
 )
 # Load the model with quantization
 model1 = AutoModelForCausalLM.from_pretrained(
     "harithapliyal/llama-3-8b-bnb-4bit-finetuned-SentAnalysis",
     quantization_config=bnb_config
@@ -70,5 +73,5 @@ inputs = tokenizer(
 outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
 outputs = tokenizer.decode(outputs[0])
 print(outputs)

 from transformers import AutoModelForCausalLM, BitsAndBytesConfig
 # Configure the quantization
+```
 bnb_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_use_double_quant=True,
     bnb_4bit_quant_type="nf4",
     bnb_4bit_compute_dtype="float16"
 )
+```
 # Load the model with quantization
+```
 model1 = AutoModelForCausalLM.from_pretrained(
     "harithapliyal/llama-3-8b-bnb-4bit-finetuned-SentAnalysis",
     quantization_config=bnb_config
 outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
 outputs = tokenizer.decode(outputs[0])
 print(outputs)
+```