FRED-T5-Summarizer / README.md

import torch from transformers import GPT2Tokenizer, T5ForConditionalGeneration tokenizer = GPT2Tokenizer.from_pretrained('RussianNLP/FRED-T5-Summarizer',eos_token='</s>') model = T5ForConditionalGeneration.from_pretrained('RussianNLP/FRED-T5-Summarizer') device='cuda' model.to(device) input_text='<LM> Сократи текст.\n В деревне, затерянной среди зелёных холмов, жил старик по имени Иван. Его жизнь протекала медленно и размеренно. Каждое утро Иван выходил на поля, чтобы заботиться о своём скромном участке земли. Он выращивал картофель и морковь, которые были его главным источником пищи. Вечера старик проводил у камина, читая книги и вспоминая молодость. Жизнь в деревне была тяжёлая, но Иван находил в ней простые радости.' input_ids=torch.tensor([tokenizer.encode(input_text)]).to(device) outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id, num_beams=5, min_new_tokens=17, max_new_tokens=200, do_sample=True, no_repeat_ngram_size=4, top_p=0.9) print(tokenizer.decode(outputs[0][1:])) # print result: Старик Иван живёт размеренной жизнью в деревне, выращивая овощи и находя радость в простых вещах.

6786ff0 verified 4 months ago

preview code

raw

history blame

4.18 kB

	---
	license: mit
	language:
	- ru
	pipeline_tag: summarization
	---
	# FRED-T5 1.7B Summarizer

	The model was trained by [SberDevices](https://sberdevices.ru/).

	The model is trained on a mix of open summarisation data [RussianNLP/Mixed-Summarization-Dataset](https://huggingface.co/datasets/RussianNLP/Mixed-Summarization-Dataset) for the Russian language and use prefix tokenen '\<LM\>'

	## Usage
	```python
	import torch
	from transformers import GPT2Tokenizer, T5ForConditionalGeneration
	tokenizer = GPT2Tokenizer.from_pretrained('RussianNLP/FRED-T5-Summarizer',eos_token='</s>')
	model = T5ForConditionalGeneration.from_pretrained('RussianNLP/FRED-T5-Summarizer')
	device='cuda'
	model.to(device)

	input_text='<LM> Сократи текст.\n В деревне, затерянной среди зелёных холмов, жил старик по имени Иван. Его жизнь протекала медленно и размеренно. Каждое утро Иван выходил на поля, чтобы заботиться о своём скромном участке земли. Он выращивал картофель и морковь, которые были его главным источником пищи. Вечера старик проводил у камина, читая книги и вспоминая молодость. Жизнь в деревне была тяжёлая, но Иван находил в ней простые радости.'
	input_ids=torch.tensor([tokenizer.encode(input_text)]).to(device)
	outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,
	num_beams=5,
	min_new_tokens=17,
	max_new_tokens=200,
	do_sample=True,
	no_repeat_ngram_size=4,
	top_p=0.9)
	print(tokenizer.decode(outputs[0][1:]))

	# print result: Старик Иван живёт размеренной жизнью в деревне, выращивая овощи и находя радость в простых вещах.

	```

	# Authors
	+ Sber Devices:
	+ Albina Akhmetgareeva
	+ Ilia Kuleshov
	+ Vlad Leschuk
	+ Alexander Abramov
	+ Alena Fenogenova

	# Cite us
	```
	@misc{akhmetgareeva2024summary,
	title={Towards Russian Summarization: can architecture solve data limitations problems?},
	author={Albina Akhmetgareeva and Ilia Kuleshov and Vlad Leschuk and Alexander Abramov and Alena Fenogenova},
	year={2024},
	}
	```import torch
	from transformers import GPT2Tokenizer, T5ForConditionalGeneration
	tokenizer = GPT2Tokenizer.from_pretrained('RussianNLP/FRED-T5-Summarizer',eos_token='</s>')
	model = T5ForConditionalGeneration.from_pretrained('RussianNLP/FRED-T5-Summarizer')
	device='cuda'
	model.to(device)

	input_text='<LM> Сократи текст.\n В деревне, затерянной среди зелёных холмов, жил старик по имени Иван. Его жизнь протекала медленно и размеренно. Каждое утро Иван выходил на поля, чтобы заботиться о своём скромном участке земли. Он выращивал картофель и морковь, которые были его главным источником пищи. Вечера старик проводил у камина, читая книги и вспоминая молодость. Жизнь в деревне была тяжёлая, но Иван находил в ней простые радости.'
	input_ids=torch.tensor([tokenizer.encode(input_text)]).to(device)
	outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,
	num_beams=5,
	min_new_tokens=17,
	max_new_tokens=200,
	do_sample=True,
	no_repeat_ngram_size=4,
	top_p=0.9)
	print(tokenizer.decode(outputs[0][1:]))

	# print result: Старик Иван живёт размеренной жизнью в деревне, выращивая овощи и находя радость в простых вещах.