File size: 5,461 Bytes
88c6a4e 5c9147d 88c6a4e fac9657 88c6a4e fac9657 6dc5f6e 88c6a4e 7460446 9e6c162 ee1059f 3b6621c ee1059f ec34b94 ee1059f 9e6c162 ee1059f ec34b94 5c9885c ec34b94 88c6a4e 4b2122a 88c6a4e 678776f 4bfa180 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 |
---
datasets:
- IlyaGusev/saiga_scored
- IlyaGusev/saiga_preferences
- dichspace/darulm
language:
- ru
pipeline_tag: text-generation
base_model:
- RefalMachine/ruadapt_qwen2.5_3B_ext_u48_full_lr5e4_peft_mlp_32_32_bs256
---
## Описание модели
Инструктивная версия адаптированного на русский язык Qwen2.5-3B (RefalMachine/ruadapt_qwen2.5_3B_ext_u48_full_lr5e4_peft_mlp_32_32_bs256). В модели был заменен токенизатор, затем произведено дообучение (Continued pretraining) на русскоязычном корпусе, после чего была применена техника LEP (Learned Embedding Propagation, paper will be soon).
Благодаря новому токенизатору (расширенный tiktoken cl100k с помощью униграм токенизатора на 48 т. токенов) скорость генерации* русскоязычных текстов возрасла до 60% по сравнению с исходной моделью Qwen-2.5-3B-Instruct.
*Под скоростью генерации подразумевается количество русскоязычных символов/слов в секунду на одинаковых текстовых последовательностях.
## Токенизация
![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/O4eQEhnowETEatDPcmArB.png)
![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/oW0Q6LzD_Py3GdH0kfqu4.png)
## Метрики и оценка качества
Модель была оценена на Ru-Arena-General, MERA, llmtf_open
#### Результаты на Ru-Arena-General
Замеры были произведены с использованием оффициального кода лидерборда (https://github.com/VikhrModels/ru_llm_arena), **но с repetition_penalty=1.1**.
Приведена лишь часть лидерборда, подробнее смотрите в репозитории бенчмарка (https://huggingface.co/spaces/Vikhrmodels/arenahardlb).
| Model Name | Winrate | 95% CI | Average # Tokens |
|--------------------------------------------------|--------|--------------------|------------------|
| gpt-4-1106-preview | 90.9 | ( +1.3 / -0.9) | 541 |
| vikhr-nemo-12b-instruct-r-21-09-24 | 87.3 | (+1.1 / -1.2) | 627 |
| gpt-4o-mini | 83.9 | (+1.9 / -1.6) | 448 |
| ruadapt_qwen2.5_7B_ext_u48_instruct | 81.9 | (+1.7 / -1.6) | 556 |
| gemma-2-9b-it | 76.5 | (+1.1 / -1.1) | 459 |
| Qwen2.5-7B-Instruct | 76.0 | (+1.6 / -1.8) | 484 |
| gemma-2-9b-it-sppo-iter3 | 73.6 | (+2.1 / -2.2) | 509 |
| saiga_llama3_8b_v7 | 67.6 | (+1.7 / -1.4) | 503 |
| **ruadapt_qwen2.5_3B_ext_u48_instruct_v4** | **66.1** | **(+2.2 / -1.9)** | **531** |
| t-lite-instruct-0.1 | 64.7 | (+2.3 / -2.2) | 810 |
#### Результаты на MERA
TODO
#### Результаты на llmtf_open
TODO
## How to cite:
Tikhomirov M., Chernyshev D. Facilitating large language model Russian adaptation with Learned Embedding Propagation // 2024 (will be soon)
Tikhomirov M., Chernyshev D. Impact of Tokenization on LLaMa Russian Adaptation //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – С. 163-168.
#### Результаты на MERA
![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/iMcy-q9r22YCmObww95sH.png)
#### Результаты на llmtf_open
TODO
## How to cite:
Tikhomirov M., Chernyshev D. Facilitating large language model Russian adaptation with Learned Embedding Propagation // 2024 (Preprint: https://arxiv.org/abs/2412.21140)
Tikhomirov M., Chernyshev D. Impact of Tokenization on LLaMa Russian Adaptation //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – С. 163-168.
## Предупреждение
Ответы модели не отражают мнения авторов, а лишь повторяют знания полученные из данных на всех этапах обучения (предобучение, смена токенизатора, обучение на инструкциях, калибровка качества ответов). Модель была получена из сторонней предобученной модели, **контроль за предобучением** которой **не является ответственностью текущих авторов**. При создании данной версии модели не производилось никаких дополнительных действий, направленных на изменение заложенных в LLM "мнений". Используйте с осторожностью. |