|
--- |
|
language: |
|
- ms |
|
--- |
|
|
|
# 2B 32768 context length Llama2 on Malaysian text embedding task using contrastive loss |
|
|
|
Trained on truncated 8k context length, but infer able to scale up to 32k context length. |
|
|
|
README at https://github.com/mesolitica/llm-embedding#finetune |
|
|
|
WandB, https://wandb.ai/mesolitica/llama2-embedding-2b-contrastive?workspace=user-husein-mesolitica |
|
|
|
WandB report, https://wandb.ai/mesolitica/llama2-embedding-600m-contrastive/reports/Contrastive-embedding-loss--Vmlldzo2MTM4ODE0 |
|
|
|
## how-to |
|
|
|
```python |
|
from transformers import AutoModel, AutoTokenizer |
|
from sklearn.metrics.pairwise import cosine_similarity |
|
|
|
model = AutoModel.from_pretrained('llama2-embedding-2b-8k-contrastive', trust_remote_code = True) |
|
tokenizer = AutoTokenizer.from_pretrained('llama2-embedding-2b-8k-contrastive') |
|
|
|
input_ids = tokenizer( |
|
[ |
|
'tak suka ayam', |
|
'Isu perkauman: Kerajaan didakwa terdesak kaitkan pemimpin PN', |
|
'nasi ayam tu sedap', |
|
'suka ikan goreng?', |
|
'Kerajaan tidak akan berkompromi dengan isu perkauman dan agama yang dimanipulasi pihak tertentu untuk mengganggu-gugat kestabilan negara serta ketenteraman rakyat.', |
|
'rasis bodo mamat tu', |
|
'kerajaan sekarang xde otak', |
|
'aku nak sukan olimpik ni', |
|
'malaysia dapat x pingat kt sukan asia?', |
|
'pingat gangsa menerusi terjun dan olahraga pada hari ke-10', |
|
'Kerajaan negeri kini dibenarkan melaksanakan penerokaan awal unsur nadir bumi (REE) berdasarkan prosedur operasi standard (SOP) sedia ada untuk perlombongan nadir bumi dan mineral.', |
|
'KONTINJEN Malaysia mendekati sasaran 27 pingat di Sukan Asia kali ini esok, selepas menuai dua lagi pingat gangsa menerusi terjun dan olahraga pada hari ke-10 pertandingan, pada Selasa.' |
|
], |
|
return_tensors = 'pt', |
|
padding = True |
|
) |
|
v = model.encode(input_ids).detach().numpy() |
|
v.shape |
|
``` |
|
|
|
``` |
|
(12, 1536) |
|
``` |