Alikhan Urumov
commited on
Commit
•
b598cc1
1
Parent(s):
1b79aae
Update README.md
Browse files
README.md
CHANGED
@@ -8,22 +8,24 @@ model-index:
|
|
8 |
|
9 |
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
|
10 |
should probably proofread and complete it, then remove this comment. -->
|
11 |
-
|
12 |
# t5-russian-spell
|
13 |
-
|
14 |
модель для исправление текста из распознаного аудио. моя модлеь для распознования аудио https://huggingface.co/UrukHan/wav2vec2-russian и его результаты можно закидывать в эту модель. тестил на видео случайном с ютюба
|
15 |
|
16 |
Пример: ывсем привет выныканалетоп армии и это двадцать пятый день спец операций на украине ет самый главной новости российские военные ракетами кинжалы калибр уничтожили крупную военную топливную базу украины ракетным ударом по населенному пункту под жетамиром уничтжены более стаукраинских военных
|
17 |
|
18 |
Вывод модели: Всем привет! Вы в курсе новостей от армии. И это 25 день спецопераций на Украине. Есть самые главные новости. Российские военные ракетами «Кинжалы» и «Кинжалы» калибра уничтожили крупную военную топливную базу Украины. Ракетным ударом по населенному пункту под Жетамиром уничтожены более ста украинских военных.
|
19 |
-
|
|
|
20 |
Датасеты для обучения: UrukHan/t5-russian-spell_I, UrukHan/t5-russian-spell_II, UrukHan/t5-russian-spell_III
|
|
|
|
|
21 |
|
22 |
-
Запуск на вывод результатов пример работы с комментариями в колабе https://colab.research.google.com/drive/1ame2va9_NflYqy4RZ07HYmQ0moJYy7w2?usp=sharing :
|
23 |
-
|
24 |
-
--------------------------------------------------------------------------------------------
|
25 |
|
26 |
-
|
|
|
27 |
# Установим библиотеку трансформеров
|
28 |
!pip install transformers
|
29 |
|
@@ -54,15 +56,13 @@ encoded = tokenizer(
|
|
54 |
predicts = model.generate(encoded) # # Прогнозирование
|
55 |
|
56 |
tokenizer.batch_decode(predicts, skip_special_tokens=True) # Декодируем данные
|
|
|
|
|
57 |
---
|
58 |
-
|
59 |
-
|
60 |
-
|
61 |
-
|
62 |
-
|
63 |
-
Настроенный блокнот для запуска обучения и сохранения модели в свой репозиторий на huggingface hub:
|
64 |
-
https://colab.research.google.com/drive/1H4IoasDqa2TEjGivVDp-4Pdpm0oxrCWd?usp=sharing
|
65 |
-
|
66 |
# Установка библиотек
|
67 |
!pip install datasets
|
68 |
!apt install git-lfs
|
@@ -182,15 +182,12 @@ trainer = Seq2SeqTrainer(
|
|
182 |
trainer.train()
|
183 |
|
184 |
trainer.push_to_hub()
|
185 |
-
|
186 |
-
|
187 |
-
|
188 |
-
--------------------------------------------------------------------------------------------
|
189 |
-
|
190 |
-
|
191 |
-
|
192 |
# Пример конвертации массивов для данной сети
|
193 |
-
|
|
|
194 |
input_data = ['удач почти отнее отвернулась', 'в хааоде проведения чемпиониавта мира дветысячивосемнандцтая лгодаа']
|
195 |
output_data = ['Удача почти от нее отвернулась', 'в ходе проведения чемпионата мира две тысячи восемнадцатого года']
|
196 |
|
|
|
8 |
|
9 |
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
|
10 |
should probably proofread and complete it, then remove this comment. -->
|
11 |
+
---
|
12 |
# t5-russian-spell
|
13 |
+
---
|
14 |
модель для исправление текста из распознаного аудио. моя модлеь для распознования аудио https://huggingface.co/UrukHan/wav2vec2-russian и его результаты можно закидывать в эту модель. тестил на видео случайном с ютюба
|
15 |
|
16 |
Пример: ывсем привет выныканалетоп армии и это двадцать пятый день спец операций на украине ет самый главной новости российские военные ракетами кинжалы калибр уничтожили крупную военную топливную базу украины ракетным ударом по населенному пункту под жетамиром уничтжены более стаукраинских военных
|
17 |
|
18 |
Вывод модели: Всем привет! Вы в курсе новостей от армии. И это 25 день спецопераций на Украине. Есть самые главные новости. Российские военные ракетами «Кинжалы» и «Кинжалы» калибра уничтожили крупную военную топливную базу Украины. Ракетным ударом по населенному пункту под Жетамиром уничтожены более ста украинских военных.
|
19 |
+
#
|
20 |
+
---
|
21 |
Датасеты для обучения: UrukHan/t5-russian-spell_I, UrukHan/t5-russian-spell_II, UrukHan/t5-russian-spell_III
|
22 |
+
#
|
23 |
+
---
|
24 |
|
25 |
+
# Запуск на вывод результатов пример работы с комментариями в колабе https://colab.research.google.com/drive/1ame2va9_NflYqy4RZ07HYmQ0moJYy7w2?usp=sharing :
|
|
|
|
|
26 |
|
27 |
+
#
|
28 |
+
```python
|
29 |
# Установим библиотеку трансформеров
|
30 |
!pip install transformers
|
31 |
|
|
|
56 |
predicts = model.generate(encoded) # # Прогнозирование
|
57 |
|
58 |
tokenizer.batch_decode(predicts, skip_special_tokens=True) # Декодируем данные
|
59 |
+
```
|
60 |
+
#
|
61 |
---
|
62 |
+
#Настроенный блокнот для запуска обучения и сохранения модели в свой репозиторий на huggingface hub:
|
63 |
+
#https://colab.research.google.com/drive/1H4IoasDqa2TEjGivVDp-4Pdpm0oxrCWd?usp=sharing
|
64 |
+
#
|
65 |
+
```python
|
|
|
|
|
|
|
|
|
66 |
# Установка библиотек
|
67 |
!pip install datasets
|
68 |
!apt install git-lfs
|
|
|
182 |
trainer.train()
|
183 |
|
184 |
trainer.push_to_hub()
|
185 |
+
```
|
186 |
+
#
|
187 |
+
---
|
|
|
|
|
|
|
|
|
188 |
# Пример конвертации массивов для данной сети
|
189 |
+
#
|
190 |
+
```python
|
191 |
input_data = ['удач почти отнее отвернулась', 'в хааоде проведения чемпиониавта мира дветысячивосемнандцтая лгодаа']
|
192 |
output_data = ['Удача почти от нее отвернулась', 'в ходе проведения чемпионата мира две тысячи восемнадцатого года']
|
193 |
|