Commit
•
3d76e0f
1
Parent(s):
e38b700
Update README.md (#1)
Browse files- Update README.md (a969a6e2dc991cdf8dfcdd2935d801470bc06188)
Co-authored-by: Nikita Sushko <chameleon-lizard@users.noreply.huggingface.co>
README.md
CHANGED
@@ -16,23 +16,23 @@ base_model:
|
|
16 |
|
17 |
**Vikhr-Llama3.1** - это унимодальная LLM (Large Language Model) на 8B параметров представляющая из себя улучшенную версию [meta-llama/Meta-Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct) командой **VikhrModels**, адаптированную преимущественно для русского и английского языков. Для ее обучения мы использовали несколько этапов включающих в себя **SFT** и **SMPO** - нашу собственную вариацию DPO, подробнее читайте в секции *"Как эта модель создавалась"*.
|
18 |
|
19 |
-
Модель оптимизированна для различных вариантов использования, включая ризонинг, суммаризацию, код, roleplay, поддержание диалога. Vikhr-Llama обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель
|
20 |
|
21 |
Весь использованный код для обучения доступен в нашем репозитории [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub, а основные датасеты доступны в нашем [профиле на HF](https://huggingface.co/Vikhrmodels).
|
22 |
|
23 |
### Особенности
|
24 |
1. Высокое качество генераций на русском и английском языках, а также некоторых других языках, благодаря датасету [Grandmaster-PRO-MAX](https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX) и исходной модели
|
25 |
-
2. Поддержка системных промптов для
|
26 |
3. Поддержка до 128k токенов контекста благодаря исходной модели (RoPE scaling)
|
27 |
4. Grounded RAG режим - модель имеет специальную роль documents и специальный режим работы для поиска идентификаторов релевантных вопросу пользователя документов и использования их для ответа на вопрос, вдохновлено аналогичной способностью модели Command-R
|
28 |
|
29 |
### Метрики и оценка качества
|
30 |
|
31 |
-
Модель оценивалась на нашем русскоязычном open-source SbS бенчмарке [ru-arena-general](https://github.com/VikhrModels/ru_llm_arena) (50 топиков по 10 вопросов), где судьей выступает gpt-4-1106-preview и [бенчмарке](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing) для RAG на основе тестового сета [Grounded-RAG-v2](https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-RU-v2), где судей
|
32 |
|
33 |
#### Результаты на Ru-Arena-General
|
34 |
|
35 |
-
В качестве
|
36 |
|
37 |
Здесь приведена лишь часть лидерборда, подробнее смотрите в репозитории бенчмарка.
|
38 |
|
@@ -55,7 +55,7 @@ base_model:
|
|
55 |
|
56 |
Общий размер тестового сета - 200 примеров, 100 для in_domain вопросов и 100 для out_of_domain.
|
57 |
|
58 |
-
Тут для оценки качества модель-судья gpt-4o была проинструктирована учитывать релеватность и
|
59 |
|
60 |
Подробности промптов и оценок смотрите в коде бенчмарка на [коллабе](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing)
|
61 |
|
@@ -188,7 +188,7 @@ out_of_domain - вопросы которые специально никак н
|
|
188 |
1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
|
189 |
2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
|
190 |
3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
|
191 |
-
4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection
|
192 |
|
193 |
Реализацию SMPO, rejection sampling и другое можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
|
194 |
|
|
|
16 |
|
17 |
**Vikhr-Llama3.1** - это унимодальная LLM (Large Language Model) на 8B параметров представляющая из себя улучшенную версию [meta-llama/Meta-Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct) командой **VikhrModels**, адаптированную преимущественно для русского и английского языков. Для ее обучения мы использовали несколько этапов включающих в себя **SFT** и **SMPO** - нашу собственную вариацию DPO, подробнее читайте в секции *"Как эта модель создавалась"*.
|
18 |
|
19 |
+
Модель оптимизированна для различных вариантов использования, включая ризонинг, суммаризацию, код, roleplay, поддержание диалога. Vikhr-Llama обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель имеет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что во многих задачах может быть лучше чем gpt-3.5-turbo от OpenAI.
|
20 |
|
21 |
Весь использованный код для обучения доступен в нашем репозитории [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub, а основные датасеты доступны в нашем [профиле на HF](https://huggingface.co/Vikhrmodels).
|
22 |
|
23 |
### Особенности
|
24 |
1. Высокое качество генераций на русском и английском языках, а также некоторых других языках, благодаря датасету [Grandmaster-PRO-MAX](https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX) и исходной модели
|
25 |
+
2. Поддержка системных промптов для регулирования стиля ответов
|
26 |
3. Поддержка до 128k токенов контекста благодаря исходной модели (RoPE scaling)
|
27 |
4. Grounded RAG режим - модель имеет специальную роль documents и специальный режим работы для поиска идентификаторов релевантных вопросу пользователя документов и использования их для ответа на вопрос, вдохновлено аналогичной способностью модели Command-R
|
28 |
|
29 |
### Метрики и оценка качества
|
30 |
|
31 |
+
Модель оценивалась на нашем русскоязычном open-source SbS бенчмарке [ru-arena-general](https://github.com/VikhrModels/ru_llm_arena) (50 топиков по 10 вопросов), где судьей выступает gpt-4-1106-preview и [бенчмарке](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing) для RAG на основе тестового сета [Grounded-RAG-v2](https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-RU-v2), где судей выступала gpt-4o.
|
32 |
|
33 |
#### Результаты на Ru-Arena-General
|
34 |
|
35 |
+
В качестве рефересных отвеов, с которыми сравниваются модели выступают ответы от gpt-3.5-turbo-0125, поэтому она имеет винрейт 50%.
|
36 |
|
37 |
Здесь приведена лишь часть лидерборда, подробнее смотрите в репозитории бенчмарка.
|
38 |
|
|
|
55 |
|
56 |
Общий размер тестового сета - 200 примеров, 100 для in_domain вопросов и 100 для out_of_domain.
|
57 |
|
58 |
+
Тут для оценки качества модель-судья gpt-4o была проинструктирована учитывать релеватность и фактологическую полноту ответов исходя из документов и реферсного ответа от gpt-4-1106-preview.
|
59 |
|
60 |
Подробности промптов и оценок смотрите в коде бенчмарка на [коллабе](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing)
|
61 |
|
|
|
188 |
1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
|
189 |
2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
|
190 |
3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
|
191 |
+
4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Sampling и достижения нужного margin.
|
192 |
|
193 |
Реализацию SMPO, rejection sampling и другое можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
|
194 |
|