import torch from transformers import GPT2Tokenizer, T5ForConditionalGeneration tokenizer = GPT2Tokenizer.from_pretrained('RussianNLP/FRED-T5-Summarizer',eos_token='</s>') model = T5ForConditionalGeneration.from_pretrained('RussianNLP/FRED-T5-Summarizer') device='cuda' model.to(device) input_text='<LM> Сократи текст.\n В деревне, затерянной среди зелёных холмов, жил старик по имени Иван. Его жизнь протекала медленно и размеренно. Каждое утро Иван выходил на поля, чтобы заботиться о своём скромном участке земли. Он выращивал картофель и морковь, которые были его главным источником пищи. Вечера старик проводил у камина, читая книги и вспоминая молодость. Жизнь в деревне была тяжёлая, но Иван находил в ней простые радости.' input_ids=torch.tensor([tokenizer.encode(input_text)]).to(device) outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id, num_beams=5, min_new_tokens=17, max_new_tokens=200, do_sample=True, no_repeat_ngram_size=4, top_p=0.9) print(tokenizer.decode(outputs[0][1:])) # print result: Старик Иван живёт размеренной жизнью в деревне, выращивая овощи и находя радость в простых вещах.
6786ff0
verified
license: mit | |
language: | |
- ru | |
pipeline_tag: summarization | |
# FRED-T5 1.7B Summarizer | |
The model was trained by [SberDevices](https://sberdevices.ru/). | |
The model is trained on a mix of open summarisation data [RussianNLP/Mixed-Summarization-Dataset](https://huggingface.co/datasets/RussianNLP/Mixed-Summarization-Dataset) for the Russian language and use prefix tokenen '\<LM\>' | |
## Usage | |
```python | |
import torch | |
from transformers import GPT2Tokenizer, T5ForConditionalGeneration | |
tokenizer = GPT2Tokenizer.from_pretrained('RussianNLP/FRED-T5-Summarizer',eos_token='</s>') | |
model = T5ForConditionalGeneration.from_pretrained('RussianNLP/FRED-T5-Summarizer') | |
device='cuda' | |
model.to(device) | |
input_text='<LM> Сократи текст.\n В деревне, затерянной среди зелёных холмов, жил старик по имени Иван. Его жизнь протекала медленно и размеренно. Каждое утро Иван выходил на поля, чтобы заботиться о своём скромном участке земли. Он выращивал картофель и морковь, которые были его главным источником пищи. Вечера старик проводил у камина, читая книги и вспоминая молодость. Жизнь в деревне была тяжёлая, но Иван находил в ней простые радости.' | |
input_ids=torch.tensor([tokenizer.encode(input_text)]).to(device) | |
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id, | |
num_beams=5, | |
min_new_tokens=17, | |
max_new_tokens=200, | |
do_sample=True, | |
no_repeat_ngram_size=4, | |
top_p=0.9) | |
print(tokenizer.decode(outputs[0][1:])) | |
# print result: Старик Иван живёт размеренной жизнью в деревне, выращивая овощи и находя радость в простых вещах. | |
``` | |
# Authors | |
+ Sber Devices: | |
+ Albina Akhmetgareeva | |
+ Ilia Kuleshov | |
+ Vlad Leschuk | |
+ Alexander Abramov | |
+ Alena Fenogenova | |
# Cite us | |
``` | |
@misc{akhmetgareeva2024summary, | |
title={Towards Russian Summarization: can architecture solve data limitations problems?}, | |
author={Albina Akhmetgareeva and Ilia Kuleshov and Vlad Leschuk and Alexander Abramov and Alena Fenogenova}, | |
year={2024}, | |
} | |
```import torch | |
from transformers import GPT2Tokenizer, T5ForConditionalGeneration | |
tokenizer = GPT2Tokenizer.from_pretrained('RussianNLP/FRED-T5-Summarizer',eos_token='</s>') | |
model = T5ForConditionalGeneration.from_pretrained('RussianNLP/FRED-T5-Summarizer') | |
device='cuda' | |
model.to(device) | |
input_text='<LM> Сократи текст.\n В деревне, затерянной среди зелёных холмов, жил старик по имени Иван. Его жизнь протекала медленно и размеренно. Каждое утро Иван выходил на поля, чтобы заботиться о своём скромном участке земли. Он выращивал картофель и морковь, которые были его главным источником пищи. Вечера старик проводил у камина, читая книги и вспоминая молодость. Жизнь в деревне была тяжёлая, но Иван находил в ней простые радости.' | |
input_ids=torch.tensor([tokenizer.encode(input_text)]).to(device) | |
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id, | |
num_beams=5, | |
min_new_tokens=17, | |
max_new_tokens=200, | |
do_sample=True, | |
no_repeat_ngram_size=4, | |
top_p=0.9) | |
print(tokenizer.decode(outputs[0][1:])) | |
# print result: Старик Иван живёт размеренной жизнью в деревне, выращивая овощи и находя радость в простых вещах. | |