Update README.md
Browse files
README.md
CHANGED
@@ -6,8 +6,16 @@ datasets:
|
|
6 |
metrics:
|
7 |
- perplexity
|
8 |
---
|
9 |
-
|
10 |
-
|
11 |
-
|
12 |
-
|
13 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6 |
metrics:
|
7 |
- perplexity
|
8 |
---
|
9 |
+
Модель openllama_3b_v2, secondstage pre-trained на датасете OSCAR (4k sequence length) и на вики датасете (8k sequence length). В сумме получилось 10-12B токенов. Достигает 3.2 значения перплексии на вики+оскар датасетах (на той части, которая не была показана модели).
|
10 |
+
|
11 |
+
Был осуществлен тест на mmlu-ru. Результаты таковы (справа - моя модель, слева - изначальная версия):
|
12 |
+
|
13 |
+
accuracy_total: 26.04 / 27.28
|
14 |
+
STEM: 25.51699654022026 / 26.910630806469058
|
15 |
+
humanities: 28.404847276301254 / 24.290275834763932
|
16 |
+
"other (business, health, misc.)": 25.39168024941998 / 29.81126559385235
|
17 |
+
social sciences: 24.83523489382067 / 28.101196261261098
|
18 |
+
|
19 |
+
Файлы с результатами sub_categories.csv (sub_categories_my.csv) тут.
|
20 |
+
|
21 |
+
Результаты показывают, что модель действительно чему-то научилась и лучше понимает русский язык. Будет осуществлено дальнейшее тестирование, а также обучение чатбота на датасетах Ильи Гусева (saiga).
|