|
--- |
|
language: |
|
- ru |
|
- en |
|
tags: |
|
- translation |
|
license: apache-2.0 |
|
datasets: |
|
- wmt19 |
|
metrics: |
|
- bleu |
|
- sacrebleu |
|
--- |
|
|
|
Turkish to English Machine Translation |
|
Dataset : Sel, İ. , Üzen, H. & Hanbay, D. (2021). Creating a Parallel Corpora for Turkish-English Academic Translations . Computer Science , 5th International Artificial Intelligence and Data Processing symposium , 335-340 . DOI: 10.53070/bbd.990959 |
|
Transformer Based(6 Layer) |
|
|
|
|
|
//usage |
|
|
|
checkpoint2 = "ilhami/Tr_En_AcademicTranslation" |
|
|
|
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM |
|
|
|
tokenizer = AutoTokenizer.from_pretrained(checkpoint) |
|
|
|
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint).to("cuda") |
|
|
|
tr= ["Sohbet robotları son yıllarda yaygın bir şekilde kullanılmaya başlanmıştır. ", |
|
"İnsanları taklit eden ve daha iyi müşteri memnuniyeti sağlayan sohbet robotları en gelişkin doğal dil işleme tekniklerine ihtiyaç duymaktadır. ", |
|
"Bu çalışma sohbet robotu konuşmalarının niyet tahminini geliştirmeye odaklanmıştır." , |
|
"Kelime gösterimi için TF-IDF, Doc2vec ve BERT gibi geleneksel ve gelişmiş doğal dil işleme yöntemleri, çoklu sınıf ve çoklu etiket tahmini için ise lojistik regresyon, rastgele orman ve yapay sinir ağları kullanılmıştır." , |
|
"Sohbet robotu konuşma veri kümeleri, sinema bileti rezervasyonu, restoran rezervasyonu ve taksi çağırma olmak üzere üç farklı alandan alınmıştır. ", |
|
"Bu çalışmanın sonunda, BERT ve BERT ile TF-IDF birleşimi modellerin diğer kombinasyonlardan daha iyi sonuç verdiği görülmüştür. ", |
|
"BERT gibi ön eğitimli modellerden faydalanmanın daha iyi bağlamsal anlama sağladığı ortaya çıkmıştır. ", |
|
"TF-IDF yerleştirmeleri, BERT gösterimi ile birleştirilerek niyet kategorisi tahmininin iyileştirilmesi amaçlanmıştır."] |
|
|
|
|
|
encoded_text = tokenizer(tr, return_tensors="pt", padding = True).to("cuda") |
|
|
|
|
|
generated_tokens = model.generate(**encoded_text) |
|
|
|
|
|
en = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True) |