ilhami's picture
Update README.md
9bb1fce
|
raw
history blame
2.04 kB
metadata
language:
  - ru
  - en
tags:
  - translation
license: apache-2.0
datasets:
  - wmt19
metrics:
  - bleu
  - sacrebleu

Turkish to English Machine Translation Dataset : Sel, İ. , Üzen, H. & Hanbay, D. (2021). Creating a Parallel Corpora for Turkish-English Academic Translations . Computer Science , 5th International Artificial Intelligence and Data Processing symposium , 335-340 . DOI: 10.53070/bbd.990959 Transformer Based(6 Layer)

//usage

checkpoint2 = "ilhami/Tr_En_AcademicTranslation"

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained(checkpoint)

model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint).to("cuda")

tr= ["Sohbet robotları son yıllarda yaygın bir şekilde kullanılmaya başlanmıştır. ", "İnsanları taklit eden ve daha iyi müşteri memnuniyeti sağlayan sohbet robotları en gelişkin doğal dil işleme tekniklerine ihtiyaç duymaktadır. ", "Bu çalışma sohbet robotu konuşmalarının niyet tahminini geliştirmeye odaklanmıştır." , "Kelime gösterimi için TF-IDF, Doc2vec ve BERT gibi geleneksel ve gelişmiş doğal dil işleme yöntemleri, çoklu sınıf ve çoklu etiket tahmini için ise lojistik regresyon, rastgele orman ve yapay sinir ağları kullanılmıştır." , "Sohbet robotu konuşma veri kümeleri, sinema bileti rezervasyonu, restoran rezervasyonu ve taksi çağırma olmak üzere üç farklı alandan alınmıştır. ", "Bu çalışmanın sonunda, BERT ve BERT ile TF-IDF birleşimi modellerin diğer kombinasyonlardan daha iyi sonuç verdiği görülmüştür. ", "BERT gibi ön eğitimli modellerden faydalanmanın daha iyi bağlamsal anlama sağladığı ortaya çıkmıştır. ", "TF-IDF yerleştirmeleri, BERT gösterimi ile birleştirilerek niyet kategorisi tahmininin iyileştirilmesi amaçlanmıştır."]

encoded_text = tokenizer(tr, return_tensors="pt", padding = True).to("cuda")

generated_tokens = model.generate(**encoded_text)

en = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)