Nandan Thakur's picture

3 8 49

Nandan Thakur

nthakur

·

https://thakur-nandan.github.io

AI & ML interests

NLP, IR, QA

Recent Activity

updated a dataset 4 days ago

nthakur/bge-full-data

liked a dataset 8 days ago

nthakur/bge-full-data

liked a model 9 days ago

meta-llama/Llama-3.2-1B

View all activity

Organizations

Posts 1

Post

3355

🦢 The SWIM-IR dataset contains 29 million text-retrieval training pairs across 27 diverse languages. It is one of the largest synthetic multilingual datasets generated using PaLM 2 on Wikipedia! 🔥🔥

SWIM-IR dataset contains three subsets :
- Cross-lingual:nthakur/swim-ir-cross-lingual
- Monolingual: nthakur/swim-ir-monolingual
- Indic Cross-lingual: nthakur/indic-swim-ir-cross-lingual

Check it out:
https://huggingface.co/collections/nthakur/swim-ir-dataset-662ddaecfc20896bf14dd9b7

Collections 3

Papers 11

arxiv:2410.13716

arxiv:2406.16828

arxiv:2312.11361

arxiv:2311.05800

models 35

nthakur/Mistral-7B-Instruct-v0.2-multilingual-dpo-v1.0-v2

Updated Aug 23, 2024 • 2

nthakur/Mistral-7B-Instruct-v0.2-multilingual-dpo-v1.0-final

Updated Aug 13, 2024

nthakur/Meta-Llama-3-8B-Instruct-mirage-all-teacher-instruct-llama-3-sft

Updated Aug 13, 2024 • 5

nthakur/Mistral-7B-Instruct-v0.2-mirage-all-teacher-instruct-mistral-sft

Updated Aug 13, 2024 • 1

nthakur/Mistral-7B-Instruct-v0.2-multilingual-dpo-v1.0

Updated Aug 12, 2024

nthakur/Mistral-7B-Instruct-v0.2-multilingual-deita-10k-v0-sft-v0.1

Updated Aug 12, 2024 • 7

nthakur/Meta-Llama-3-8B-Instruct-mirage-mirage-gpt-4o-sft-instruct-llama-3

Updated Aug 12, 2024 • 1

nthakur/Meta-Llama-3-8B-Instruct-mirage-meta-llama-3-sft-instruct

Updated Aug 10, 2024 • 5

nthakur/Mistral-7B-Instruct-v0.2-mirage-gpt-4o-sft-instruct-mistral

Updated Aug 10, 2024 • 2

nthakur/Mistral-7B-Instruct-v0.2-mirage-mistral-sft-instruct

Updated Aug 9, 2024 • 6

datasets 57

nthakur/bge-full-data

Viewer • Updated 4 days ago • 1.6M • 114 • 1

nthakur/mirage-eval-rag-output

Viewer • Updated Aug 12, 2024 • 11.2k • 161

nthakur/mirage-meta-llama-3-mistral-sft-instruct-meta-llama-tokenizer

Viewer • Updated Aug 12, 2024 • 56.4k • 47

nthakur/mirage-mistral-llama-3-sft-instruct-mistral-tokenizer

Viewer • Updated Aug 12, 2024 • 56.4k • 44

nthakur/multilingual-ultrafeedback-binarized-dpo-v0.1

Viewer • Updated Aug 11, 2024 • 76.4k • 43

nthakur/GSM8KInstruct-Parallel-instruct-dpo-v0.1

Viewer • Updated Aug 11, 2024 • 70k • 47

nthakur/mirage-gpt-4o-sft-instruct-llama-3

Viewer • Updated Aug 10, 2024 • 29.2k • 35

nthakur/multilingual-deita-10k-v0-sft-v0.1

Viewer • Updated Aug 9, 2024 • 24.4k • 37

nthakur/mirage-gpt-4o-sft-instruct-mistral

Viewer • Updated Aug 9, 2024 • 29.2k • 45 • 1

nthakur/mirage-meta-llama-3-sft-instruct

Viewer • Updated Aug 9, 2024 • 57.6k • 47