Spaces:

A1ex1
/

text-generation

Sleeping

App Files Files Community

text-generation / app.py

A1ex1

edit application file

a5ffd76 over 1 year ago

raw

history blame

4 kB

	import numpy
	import streamlit as st
	import torch

	st.title('Генерация текста GPT-моделью')
	st.subheader('Это приложение показывает разницу в генерации текста моделью rugpt3small, обученной на документах общей тематики и этой же моделью, дообученной на анекдотах')

	device = 'cuda' if torch.cuda.is_available() else 'cpu'

	# Загружаем токенайзер модели
	from transformers import GPT2Tokenizer
	tokenizer = GPT2Tokenizer.from_pretrained('sberbank-ai/rugpt3small_based_on_gpt2')

	from transformers import GPT2LMHeadModel

	# Эту модель просто подгружаем
	model_init = GPT2LMHeadModel.from_pretrained(
	'sberbank-ai/rugpt3small_based_on_gpt2',
	output_attentions = False,
	output_hidden_states = False,
	)
	model_init.to(device);
	# # Это обученная модель, в нее загружаем веса
	# model = GPT2LMHeadModel.from_pretrained(
	# 'sberbank-ai/rugpt3small_based_on_gpt2',
	# output_attentions = False,
	# output_hidden_states = False,
	# )

	# m = torch.load('model.pt')
	# model.load_state_dict(m)
	# model.to(device);

	str = st.text_input('Введите 1-4 слова начала текста, и подождите минутку', 'Мужик спрашивает у официанта')

	# модель без дообучения
	# prompt – строка, которую примет на вход и продолжит модель

	# токенизируем строку
	prompt = tokenizer.encode(str, return_tensors='pt').to(device)

	# out будет содержать результаты генерации в виде списка
	out1 = model_init.generate(
	# входная строка
	input_ids=prompt,
	# максимальная длина генерируемой последовательности
	max_length=150,
	# num_beams
	num_beams=5,
	# применяем сэмплирование
	do_sample=True,
	# применяем температуру
	temperature=1.,
	# топ слов по вероятности
	top_k=50,
	# топ слов по суммарной вероятности
	top_p=0.6,
	# сколько (постараться) не повторять n_gram подряд
	no_repeat_ngram_size=3,
	# сколько вернуть генераций
	num_return_sequences=3,
	).cpu().numpy() #).numpy()

	st.write('\n------------------\n')
	st.subheader('Тексты на модели, обученной документами всех тематик:')
	# out содержит результаты
	# декодируем и печатаем
	n = 0
	for out_ in out1:
	n += 1
	st.write(tokenizer.decode(out_).rpartition('.')[0],'.')
	st.write('\n------------------\n')
	# print(tokenizer.decode(out_))


	# # дообученная модель
	# with torch.inference_mode():
	# # prompt = 'Мужик спрашивает официанта'
	# # prompt = tokenizer.encode(str, return_tensors='pt')
	# out2 = model.generate(
	# input_ids=prompt,
	# max_length=150,
	# num_beams=1,
	# do_sample=True,
	# temperature=1.,
	# top_k=5,
	# top_p=0.6,
	# no_repeat_ngram_size=2,
	# num_return_sequences=3,
	# ).numpy() #).cpu().numpy()

	# st.subheader('Тексты на модели, обученной документами всех тематик и дообученной анекдотами:')
	# n = 0
	# for out_ in out2:
	# n += 1
	# st.write(tokenizer.decode(out_).rpartition('.')[0],'.')
	# # print(textwrap.fill(tokenizer.decode(out_), 100), end='\n------------------\n')
	<<<<<<< HEAD
	# st.write('\n------------------\n')
	=======
	# st.write('\n------------------\n')
	>>>>>>> da65de15227afe7841c21d51b9e43521b1a62c1b