Zynp AI Teknofest Cevap Özetleme Modeli

Bu model, Mistral-7B temel alınarak Türkçe dilinde özetleme görevleri için ince ayar yapılmıştır. Model, belirli bir soruya verilen uzun cevapları özetleyerek daha kısa ve anlaşılır bir bilgi sağlar. Özellikle Türkçe metinleri işlemek için optimize edilmiştir.

Veri Seti

Model, zynpdata-zynp_ai-teknofest: Türkiye'nin En Büyük Açık Kaynaklı Türkçe Veri Seti kullanarak eğitilmiştir. Veri seti hakkında daha fazla bilgi ve veri setinin nasıl kullanılacağıyla ilgili detaylar için bu bağlantıya göz atabilirsiniz.

Modelin Kullanımı

Bu modelin kullanımı oldukça basittir. Aşağıdaki Python kodu ile modelinizi yükleyebilir ve test edebilirsiniz:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Modeli ve tokenizer'ı yükleyin
model_name = "ocaklisemih/sekerlipencere/zynpdata-mistral-7b-summarization"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")

# Örnek giriş metni
input_text = """<s>[INST]Soru: CS:GO FPS nasıl arttırılır?

Hocam çoklu CPU kullanımını ayarlardan kapattıysanız aktif edince 4 5 FPS artar.CS:GO görüntü ayarlarında Uber gölgelendirici kullan komutunu hayır yapmanız öneririm dikey eşitleme FPS'ini sabitler bundan dolayı yüksek FPS değerleri almana mani olur.[/INST]

Özet:
"""

# Giriş metnini tokenizasyon işlemi
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
input_ids = inputs["input_ids"]

# Modelle özetleme işlemi
output = model.generate(input_ids, max_new_tokens=150)
output_text = tokenizer.decode(output[0], skip_special_tokens=True)

print(output_text)

Eğitim Detayları

Bu model, aşağıdaki ayarlarla eğitilmiştir:

Model: Mistral-7B
Veri Kümesi: sekerlipencere-zynpdata-zynp_ai-teknofest
Eğitim Süresi: 3 epoch
Hiperparametreler:
Öğrenme Oranı: 2e-4
Toplam Adım: 10,000
Batch Boyutu: 4
Gradient Accumulation: 8
Optimizasyon: LoRA (Low-Rank Adaptation)
Kayıp Fonksiyonu: Causal Language Modeling (CLM)
Model, LoRA yöntemi kullanılarak düşük rank adaptasyonu ile eğitildi ve daha verimli bir şekilde büyük dil modelleri üzerinde ince ayar yapıldı.

Modelin Özellikleri

Dil: Türkçe
Görev: Özetleme (Summarization)
Model Boyutu: 7B parametre
Quantization: 4-bit NF4 quantization ile optimize edilmiştir.

Atıf

@misc{zynpdata2024,
  author = {sekerlipencere},
  title = {zynpdata: Türkiye'nin En Büyük Açık Kaynaklı Türkçe Forum Veri Seti},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub Repository},
  howpublished = {\url{https://github.com/sekerlipencere/zynpdata-zynp_ai-teknofest}}
}

ocaklisemih
/

sekerlipencere-zynpdata-mistral-7b-summarization