huseinzol05
commited on
Commit
โข
0c28e17
1
Parent(s):
baa6ff4
Update README.md
Browse files
README.md
CHANGED
@@ -29,4 +29,45 @@ Trained using 2048 context length on 6.8B tokens of translation dataset. This mo
|
|
29 |
16. `'terjemah ke terengganu: '`
|
30 |
17. `'terjemah ke Jawi: '`
|
31 |
18. `'terjemah ke Manglish: '`
|
32 |
-
19. `'terjemah ke pasar Mandarin: '`
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
29 |
16. `'terjemah ke terengganu: '`
|
30 |
17. `'terjemah ke Jawi: '`
|
31 |
18. `'terjemah ke Manglish: '`
|
32 |
+
19. `'terjemah ke pasar Mandarin: '`
|
33 |
+
|
34 |
+
## how to
|
35 |
+
|
36 |
+
```python
|
37 |
+
from transformers import AutoTokenizer, T5ForConditionalGeneration
|
38 |
+
|
39 |
+
tokenizer = AutoTokenizer.from_pretrained('mesolitica/nanot5-small-malaysian-translation-v2')
|
40 |
+
model = T5ForConditionalGeneration.from_pretrained('mesolitica/nanot5-small-malaysian-translation-v2')
|
41 |
+
|
42 |
+
strings = [
|
43 |
+
'ak tak paham la',
|
44 |
+
'Hi guys! I noticed semalam & harini dah ramai yang dapat cookies ni kan. So harini i nak share some post mortem of our first batch:',
|
45 |
+
"Memanglah. Ini tak payah expert, aku pun tau. It's a gesture, bodoh.",
|
46 |
+
'jam 8 di pasar KK memang org ramai ๐, pandai dia pilih tmpt.',
|
47 |
+
'Jadi haram jadah๐๐๐คญ',
|
48 |
+
'nak gi mana tuu',
|
49 |
+
'Macam nak ambil half day',
|
50 |
+
"Bayangkan PH dan menang pru-14. Pastu macam-macam pintu belakang ada. Last-last Ismail Sabri naik. That's why I don't give a fk about politics anymore. Sumpah dah fk up dah.",
|
51 |
+
]
|
52 |
+
all_special_ids = [0, 1, 2]
|
53 |
+
prefix = 'terjemah ke Melayu: '
|
54 |
+
input_ids = [{'input_ids': tokenizer.encode(f'{prefix}{s}{tokenizer.eos_token}', return_tensors='pt')[
|
55 |
+
0]} for s in strings]
|
56 |
+
padded = tokenizer.pad(input_ids, padding='longest')
|
57 |
+
outputs = model.generate(**padded, max_length = 100)
|
58 |
+
tokenizer.batch_decode([[i for i in o if i not in all_special_ids] for o in outputs],
|
59 |
+
spaces_between_special_tokens = False)
|
60 |
+
```
|
61 |
+
|
62 |
+
Output,
|
63 |
+
|
64 |
+
```
|
65 |
+
[' Saya tidak faham',
|
66 |
+
' Hi guys! Saya perasan semalam dan hari ini ramai yang menerima cookies. Jadi hari ini saya ingin berkongsi beberapa post mortem batch pertama kami:',
|
67 |
+
' Memanglah. Tak perlu pakar, saya juga tahu. Ini adalah satu isyarat, bodoh.',
|
68 |
+
' Orang ramai di pasar KK pada jam 8 pagi, mereka sangat pandai memilih tempat.',
|
69 |
+
' Jadi haram jadah ๐๐๐คญ',
|
70 |
+
' Di mana kamu pergi?',
|
71 |
+
' Saya ingin mengambil separuh hari',
|
72 |
+
' Bayangkan PH dan menang PRU-14. Terdapat pelbagai pintu belakang. Akhirnya, Ismail Sabri naik. Itulah sebabnya saya tidak lagi bercakap tentang politik. Saya bersumpah sudah berputus asa.']
|
73 |
+
```
|