Add 4-bit quantization and automatic device mapping for improved performance.

Merhabalar, öncelikle tebrik ederim mükemmel bir çalışma olmuş, pull request olarak readme’e inference için 4 bit quantization ve modeli sistemdeki tüm ekran kartlarına ve rama otomatik yükleme kodu ekledim bu sayede kullanıcılar performans azalmadan daha hızlı ve verimli bir şekilde kullanabilirler.

Files changed (1) hide show

README.md +41 -0

README.md CHANGED Viewed

@@ -63,3 +63,44 @@ generated_ids = model.generate(model_inputs,
 decoded = tokenizer.batch_decode(generated_ids)
 print(decoded[0])

 decoded = tokenizer.batch_decode(generated_ids)
 print(decoded[0])
+```
+# 4-bit Quantized Inference
+```python
+# pip install bitsandbytes accelerate
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
+import torch
+quantization_config = BitsAndBytesConfig(
+   load_in_4bit=True,
+   bnb_4bit_quant_type="nf4",
+   bnb_4bit_use_double_quant=True,
+   bnb_4bit_compute_dtype=torch.float16 # or torch.bfloat16
+)
+model = AutoModelForCausalLM.from_pretrained("TURKCELL/Turkcell-LLM-7b-v1", device_map="auto", quantization_config=quantization_config)
+tokenizer = AutoTokenizer.from_pretrained("TURKCELL/Turkcell-LLM-7b-v1")
+messages = [
+    {"role": "user", "content": "Türkiye'nin başkenti neresidir?"},
+]
+encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")
+eos_token = tokenizer("<|im_end|>",add_special_tokens=False)["input_ids"][0]
+device = "cuda"
+model_inputs = encodeds.to(device)
+generated_ids = model.generate(model_inputs,
+                               max_new_tokens=1024,
+                               do_sample=True,
+                               eos_token_id=eos_token)
+decoded = tokenizer.batch_decode(generated_ids)
+print(decoded[0])
+```