Safetensors
gemma2

Masalah Penggunaan Kata Ganti "Kami" vs "Kita" pada Model Bahasa

#7
by bluerain123 - opened

Saya menemukan bahwa model bahasa secara tidak konsisten menggunakan kata ganti "kami" dan "kita" dalam konteks yang seharusnya menggunakan "kita". Hal ini dapat memengaruhi pemahaman konteks, terutama dalam percakapan atau teks di mana perbedaan penggunaan kedua kata ini sangat penting dalam bahasa Indonesia.

Sebagai contoh:

Kalimat yang dihasilkan model: "Kami akan pergi ke acara itu bersama."
Masalah: Jika konteks menunjukkan bahwa pembicara dan pendengar termasuk dalam kelompok yang dimaksud, seharusnya digunakan "kita" alih-alih "kami".

Saya menemukan bahwa model bahasa secara tidak konsisten menggunakan kata ganti "kami" dan "kita" dalam konteks yang seharusnya menggunakan "kita". Hal ini dapat memengaruhi pemahaman konteks, terutama dalam percakapan atau teks di mana perbedaan penggunaan kedua kata ini sangat penting dalam bahasa Indonesia.

Sebagai contoh:

Kalimat yang dihasilkan model: "Kami akan pergi ke acara itu bersama."
Masalah: Jika konteks menunjukkan bahwa pembicara dan pendengar termasuk dalam kelompok yang dimaksud, seharusnya digunakan "kita" alih-alih "kami".

Disclaimer:

  1. saya tidak terafiliasi dengan GoToCompany, sehingga dataset, teknis finetune dan hal lain yang dilakukan pada model ini tidak saya ketahui.
  2. saya bukan AI engineer, hanya seorang yang antusias terhadap generative AI

Saya coba menjawab permasalahan kata ganti tersebut.
Permasalahan kata ganti ini muncul setidaknya dengan 4 sumber permasalahan (yang saya ketahui).

  1. Dataset sintetik yang kemungkinan tidak relevan
    Jika dataset yang digunakan untuk melatih model tidak memiliki representasi yang cukup kaya atau seimbang dari konteks penggunaan "kami" dan "kita", model bisa salah memahami atau menyalahgunakan kata ganti tersebut. Dalam Bahasa Indonesia, perbedaan antara "kami" (tidak menyertakan pendengar) dan "kita" (menyertakan pendengar) sangat penting, tapi dataset training yang digunakan bisa saja merupakan translasi dari Bahasa Inggris yang konteks kata ganti tidak begitu berpengaruh, sehingga memunculkan permasalahan ini ketika model tersebut diminta melakukan percakapan dalam Bahasa Indonesia.

  2. Proses tokenisasi
    Fungsi tokenizer singkatnya adalah untuk memecah kalimat menjadi token-token, pada umumnya tokenizer tidak memperhatikan konteks percakapan secara keseluruhan, sehingga memungkinkan permasalahan kata ganti ini muncul. Tokenizer tidak selalu memperhatikan bahwa kata seperti "kami" dan "kita" memiliki makna yang kontekstual dalam Bahasa Indonesia. Kembali lagi, ini berbeda dengan Bahasa Inggris di mana perbedaan antara kata ganti bisa lebih sederhana.

  3. Model bahasa yang tidak kontekstual
    LLM yang dikembangkan untuk beberapa bahasa mungkin mengalami kesulitan dalam menangkap aturan gramatikal yang unik untuk setiap bahasa, termasuk perbedaan kata ganti dalam Bahasa Indonesia.

  4. Kekurangan pada finetuning
    LLM umumnya dilatih terutama pada dataset dalam bahasa Inggris. Pelatihan untuk bahasa selain Inggris (seperti Bahasa Indonesia) mungkin memerlukan lebih banyak fine-tuning untuk menangkap nuansa seperti ini dan untuk memastikan konsistensi dalam penggunaan kata ganti "kami" dan "kita," model perlu dilatih dengan data tambahan atau dilakukan pelatihan ulang yang mencakup skenario percakapan yang melibatkan perbedaan kata ganti.

Masalah lebih kompleks akan muncul nantinya jika model semisal akan di finetune ke Bahasa Jawa yang lebih "proper", karena bahasa yang memiliki strata dalam penggunaannya seperti Bahasa Jawa, akan lebih sulit untuk menghasilkan output (percakapan) yang sesuai, belum lagi jika ditambahkan aksara Jawa (Hanacaraka).

Terima kasih atas balasannya!

Memang agak sulit jika ditambahkan dengan bahasa daerah lokal, seharusnya sih lebih baik fokus kepada bahasa indonesia aja dulu, ya?

Semoga ke depannya model ini terus mendapatkan pembaruan yang lebih baik. Saya juga berharap rilisnya model 27B (semoga dirilis😂) akan mampu menangkap nuansa konteks dengan lebih baik dan memberikan hasil yang lebih akurat.

Terima kasih atas balasannya!

Memang agak sulit jika ditambahkan dengan bahasa daerah lokal, seharusnya sih lebih baik fokus kepada bahasa indonesia aja dulu, ya?

Semoga ke depannya model ini terus mendapatkan pembaruan yang lebih baik. Saya juga berharap rilisnya model 27B (semoga dirilis😂) akan mampu menangkap nuansa konteks dengan lebih baik dan memberikan hasil yang lebih akurat.

amin... semoga gak berhenti hanya pada saat nvidia datang di indonesia aja ya

Sign up or log in to comment