Update README.md
Browse files
README.md
CHANGED
@@ -10,9 +10,12 @@ tags:
|
|
10 |
|
11 |
## CharGPT-96M
|
12 |
|
13 |
-
|
14 |
|
15 |
-
|
|
|
|
|
|
|
16 |
|
17 |
Размер модели - **96 миллионов** параметров.
|
18 |
|
@@ -22,7 +25,7 @@ tags:
|
|
22 |
Поэтому корпус претрейна содержал значительное количество текстов поэтического формата.
|
23 |
Это может повлиять на ваши downstream задачи.
|
24 |
|
25 |
-
Объем корпуса претрейна - около 30B
|
26 |
|
27 |
Кривая loss_val: ![pretrain_loss_val](pretrain_loss_val.png)
|
28 |
|
@@ -69,3 +72,6 @@ for o in output_sequences:
|
|
69 |
print(text)
|
70 |
print('-'*80)
|
71 |
```
|
|
|
|
|
|
|
|
10 |
|
11 |
## CharGPT-96M
|
12 |
|
13 |
+
Это крошечная языковая модель с **посимвольной** токенизацией для всевозможных экспериментов, когда задача решается плохо из-за BPE токенизации на слова и их части:
|
14 |
|
15 |
+
1) генеративные спеллчекеры
|
16 |
+
2) классификация текста: замена ```TfidfVectorizer(analyzer='char')```, т.е. когда хорошо сработал бейзлайн на символьных n-граммах
|
17 |
+
3) транскрипция текста
|
18 |
+
4) детекция орфографических ошибок, опечаток
|
19 |
|
20 |
Размер модели - **96 миллионов** параметров.
|
21 |
|
|
|
25 |
Поэтому корпус претрейна содержал значительное количество текстов поэтического формата.
|
26 |
Это может повлиять на ваши downstream задачи.
|
27 |
|
28 |
+
Объем корпуса претрейна - около **30B** токенов, тексты только на русском языке.
|
29 |
|
30 |
Кривая loss_val: ![pretrain_loss_val](pretrain_loss_val.png)
|
31 |
|
|
|
72 |
print(text)
|
73 |
print('-'*80)
|
74 |
```
|
75 |
+
|
76 |
+
Также, будут работать все прочие инструменты для GPT моделей, например transformers.GPT2ForSequenceClassification.
|
77 |
+
|