UrukHan
/

t5-russian-spell

@@ -22,9 +22,9 @@ should probably proofread and complete it, then remove this comment. -->
 Запуск на вывод результатов пример работы с комментариями в колабе https://colab.research.google.com/drive/1ame2va9_NflYqy4RZ07HYmQ0moJYy7w2?usp=sharing :
 --------------------------------------------------------------------------------------------
 # Установим библиотеку трансформеров
-+ !pip install transformers
 # Импортируем библиотеки
 from transformers import AutoModelForSeq2SeqLM, T5TokenizerFast
@@ -53,9 +53,9 @@ encoded = tokenizer(
 predicts = model.generate(**encoded)    # # Прогнозирование
 tokenizer.batch_decode(predicts, skip_special_tokens=True)  # Декодируем данные
 --------------------------------------------------------------------------------------------
 Настроенный блокнот для запуска обучения и сохранения модели в свой репозиторий на huggingface hub:
 https://colab.research.google.com/drive/1H4IoasDqa2TEjGivVDp-4Pdpm0oxrCWd?usp=sharing
@@ -178,9 +178,9 @@ trainer = Seq2SeqTrainer(
 trainer.train()
 trainer.push_to_hub()
 --------------------------------------------------------------------------------------------
 # Пример конвертации массивов для данной сети
 input_data = ['удач почти отнее отвернулась', 'в хааоде проведения чемпиониавта мира дветысячивосемнандцтая лгодаа']
@@ -209,4 +209,5 @@ labels[labels == tokenizer.pad_token_id] = -100'''
 data = Dataset.from_pandas(pd.DataFrame({'input_ids': list(np.array(input_ids)), 'attention_mask': list(np.array(attention_mask)), 'labels': list(np.array(labels))}))
 data = data.train_test_split(0.02)
-# и получим на вход сети для нашешго trainer:   train_dataset = data['train'],  eval_dataset = data['test']

 Запуск на вывод результатов пример работы с комментариями в колабе https://colab.research.google.com/drive/1ame2va9_NflYqy4RZ07HYmQ0moJYy7w2?usp=sharing :
 --------------------------------------------------------------------------------------------
+'''
 # Установим библиотеку трансформеров
+!pip install transformers
 # Импортируем библиотеки
 from transformers import AutoModelForSeq2SeqLM, T5TokenizerFast
 predicts = model.generate(**encoded)    # # Прогнозирование
 tokenizer.batch_decode(predicts, skip_special_tokens=True)  # Декодируем данные
+'''
 --------------------------------------------------------------------------------------------
+'''
 Настроенный блокнот для запуска обучения и сохранения модели в свой репозиторий на huggingface hub:
 https://colab.research.google.com/drive/1H4IoasDqa2TEjGivVDp-4Pdpm0oxrCWd?usp=sharing
 trainer.train()
 trainer.push_to_hub()
+'''
 --------------------------------------------------------------------------------------------
+'''
 # Пример конвертации массивов для данной сети
 input_data = ['удач почти отнее отвернулась', 'в хааоде проведения чемпиониавта мира дветысячивосемнандцтая лгодаа']
 data = Dataset.from_pandas(pd.DataFrame({'input_ids': list(np.array(input_ids)), 'attention_mask': list(np.array(attention_mask)), 'labels': list(np.array(labels))}))
 data = data.train_test_split(0.02)
+# и получим на вход сети для нашешго trainer:   train_dataset = data['train'],  eval_dataset = data['test']
+'''