Indonesian Sentence Embedding

LazarusNLP 's Collections

NusaBERT

Indonesian T5 Language Models

Indonesian Natural Language Inference

IndoT5 Machine Translation

updated Jun 24, 2024

Indonesian Sentence Embedding models based on supervised and unsupervised techniques. https://github.com/lazarusnlp/indonesian-sentence-embeddings/

Upvote

LazarusNLP/stsb_mt_id

Viewer • Updated Jan 6, 2024 • 2.88k • 58 • 2

Note Machine-translated STS-B, translated using Google Translate API.
LazarusNLP/all-indo-e5-small-v4

Sentence Similarity • Updated May 15, 2024 • 13.2k • 4

Note Our current best model for Indonesian sentence embeddings: `intfloat/multilingual-e5-small` fine-tuned on all available supervised Indonesian datasets (v4).
LazarusNLP/all-indo-e5-small-v3

Sentence Similarity • Updated Feb 12, 2024 • 63

Note `intfloat/multilingual-e5-small` fine-tuned on all available supervised Indonesian datasets (v3).
LazarusNLP/all-indo-e5-small-v2

Sentence Similarity • Updated Jan 27, 2024 • 504

Note `intfloat/multilingual-e5-small` fine-tuned on all available supervised Indonesian datasets (v2). Similar performance to the model above.
LazarusNLP/all-nusabert-base-v4

Sentence Similarity • Updated May 15, 2024 • 47

Note `LazarusNLP/NusaBERT-base` fine-tuned on all available supervised Indonesian datasets (v4). Significant improvements from `LazarusNLP/all-indobert-base-v4` counterpart.
LazarusNLP/all-nusabert-large-v4

Sentence Similarity • Updated May 19, 2024 • 34 • 2

Note `LazarusNLP/NusaBERT-large` fine-tuned on all available supervised Indonesian datasets (v4).
LazarusNLP/all-indobert-base-v4

Sentence Similarity • Updated May 15, 2024 • 473 • 2

Note `indobenchmark/indobert-base-p1` fine-tuned on all available supervised Indonesian datasets (v4).
LazarusNLP/all-indobert-base-v2

Sentence Similarity • Updated Jan 26, 2024 • 101

Note `indobenchmark/indobert-base-p1` fine-tuned on all available supervised Indonesian datasets (v2).
LazarusNLP/all-indobert-base

Sentence Similarity • Updated Jan 25, 2024 • 17

Note Same as above, except with v1 of all supervised Indonesian datasets.
LazarusNLP/simcse-indobert-base

Sentence Similarity • Updated Nov 5, 2024 • 38 • 1

Note `indobenchmark/indobert-base-p1` fine-tuned using unsupervised SimCSE on Wikipedia texts. This model was the initial baseline for other unsupervised trainings.
LazarusNLP/congen-indobert-base

Sentence Similarity • Updated 6 days ago • 58

Note `indobenchmark/indobert-base-p1` fine-tuned using unsupervised ConGen on Wikipedia texts. Used `sentence-transformers/paraphrase-multilingual-mpnet-base-v2` as teacher model for distillation. An improvement of the above.
LazarusNLP/congen-indobert-lite-base

Sentence Similarity • Updated Jan 6, 2024

Note Same setup as above, except with `indobenchmark/indobert-lite-base-p1` as the student model. Achieves a surprisingly decent performance despite its small size (11M lite; versus 127M above).
LazarusNLP/congen-simcse-indobert-base

Sentence Similarity • Updated Jan 6, 2024

Note Further-applying ConGen to `LazarusNLP/simcse-indobert-base`. Also used `sentence-transformers/paraphrase-multilingual-mpnet-base-v2` as teacher model for distillation. Only slightly improving the student's model initial results.
LazarusNLP/congen-indo-e5-small

Sentence Similarity • Updated Jan 23, 2024

Note `intfloat/multilingual-e5-small` fine-tuned using unsupervised ConGen on Wikipedia texts. Used `sentence-transformers/paraphrase-multilingual-mpnet-base-v2` as teacher model for distillation. Since the student model is better than the teacher model on certain tasks, this method slightly degrades its initial performance.
LazarusNLP/sct-indobert-base

Sentence Similarity • Updated Jan 22, 2024 • 9

Note `indobenchmark/indobert-base-p1` fine-tuned using unsupervised SCT on Wikipedia texts. Used `sentence-transformers/paraphrase-multilingual-mpnet-base-v2` as teacher model for distillation. Worse result compared to all ConGen setups thus far; further experiments necessary.

Upvote