mT5-sum-news-ua / README.md
SGaleshchuk's picture
Update README.md
3d8984c
metadata
language:
  - uk
datasets:
  - UberText
metrics:
  - rouge
max_length:
  - 128
pipeline_tag: summarization
widget:
  - text: >-
      російські війська захопили запорізьку аес на початку повномасштабного
      вторгнення 4 березня 2022 року .  попри оголошену окупантами «анексію»
      запорізької аес, на станції продовжують працювати українські фахівці . але
      для роботи окупанти змушують отримувати російські паспорти й підписувати
      договір з «росатомом» . за даними «енергоатому», зараз усі шість
      енергоблоків заес зупинені, а окупанти блокують їхнє ввімкнення .
      окупована станція продовжує постійно споживати електроенергію на власні
      потреби з енергосистеми україни . «російські окупанти продовжують
      перетворювати запорізьку аес на військову базу, мінуючи периметр довкола
      станції .  і ці дії не можуть не мати наслідків», - зазначили там .

Model Description

The dataset contains around 40K articles about politics, science, technology, social life collected until June 2021 from Hromadske.ua.

Load the model and mt tokenizer :
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

tokenizer = AutoTokenizer.from_pretrained("google/mt5-large")

model = AutoModelForSeq2SeqLM.from_pretrained("SGaleshchuk/t5-large-ua-news")

summarizer = pipeline("summarization", model=model, tokenizer=tokenizer, framework="pt")
##### Try on your example

summary = summarizer("російські війська захопили запорізьку аес на початку повномасштабного вторгнення 4 березня 2022 року . попри оголошену окупантами «анексію» запорізької аес, на станції продовжують працювати українські фахівці . але для роботи окупанти змушують отримувати російські паспорти й підписувати договір з «росатомом» . за даними «енергоатому», зараз усі шість енергоблоків заес зупинені, а окупанти блокують їхнє ввімкнення . окупована станція продовжує постійно споживати електроенергію на власні потреби з енергосистеми україни . «російські окупанти продовжують перетворювати запорізьку аес на військову базу, мінуючи периметр довкола станції . і ці дії не можуть не мати наслідків», - зазначили там .", min_length=3, max_length = 128)
print(summary)
[{'summary_text': 'окупаційна влада рф продовжує перетворювати запорізьку атомну електростанцію на військову базу . '}]
  • Model type: sequence-to-sequence, summarization
  • Language(s) (NLP): Ukrainian
  • Finetuned from model : mT5-large

Model Sources

  • Dataset: UberText
  • Paper: Svitlana Galeshchuk, Abstractive Summarization for the Ukrainian Language: Multi-Task Learning with Hromadske.ua News Dataset. Proceedings of UNLP Workshop at EACL 2023.
  • Demo: to be provided

Preprocessing

It is recommended to lowercase an input text.

Metrics

The benchmark metric for abstractive summarization tasks adopted by the research community is the ROUGE score. The metric compares a generated summary against a reference. We employ three sub-categories of the ROUGE score:

• ROUGE-1: unigram overlap

• ROUGE-2: bigram overlap

• ROUGE-L: Longest Common Subsequence

Results

• ROUGE-1: 22.09

• ROUGE-2: 7.04

• ROUGE-L: 22.12