File size: 1,573 Bytes
784f04a
 
 
 
 
77ba677
784f04a
 
 
f3ef75b
 
f6557ef
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
---
language:
- ms
---

# Full Parameter Finetuning 8B 8192 context length Llama 3 on Malaysian text 9.5B tokens

README at https://github.com/huseinzol05/malaya/tree/master/session/llama3

Data preparation at https://github.com/malaysia-ai/dedup-text-dataset/tree/main/llama-3

WandB, https://wandb.ai/huseinzol05/finetune-llama-3-8b/workspace?nw=nwuserhuseinzol05

## how-to

```python
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained('mesolitica/llama-3-8b-8192-hf')
model = AutoModelForCausalLM.from_pretrained('mesolitica/llama-3-8b-8192-hf', torch_dtype=torch.bfloat16,
                                            use_flash_attention_2 = True)
_ = model.cuda()
t = tokenizer('User: KWSP tu apa?\nBot: ', return_tensors = 'pt').to('cuda')
r = model.generate(**t, max_new_tokens=200,
    top_p=0.95,
    top_k=50,
    temperature=0.9,
    do_sample=True,
    num_beams=1,)
tokenizer.decode(r[0])
```

```
User: KWSP tu apa?
Bot: ialah kumpulan wang simpanan pekerja kita sebagai badan kebajikan yang memastikan kesejahteraan 13.5 juta ahlinya terus terbela. 2) Pengeluaran i-sinar akan diteruskan dengan bayaran pertama 3) Pengeluaran i-citra akan diteruskan dengan bayaran pertama bulan April 2021. 4) 600,000 orang telah memohon untuk pengeluaran i-lestari daripada jumlah yang layak iaitu 2.5 juta orang. 5) KWSP telah meningkatkan had pengeluaran i-lestari daripada 6,000 kepada 9,000 bagi 6) Peratusan pengeluaran i-lestari turut dinaikkan daripada 4% kepada 10% iaitu maksimum pengeluaran RM
```