File size: 8,646 Bytes
f139e46
 
788fee7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f139e46
788fee7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
dae4725
788fee7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
---
license: mit
language: 
- ru
- en
datasets:
- d0rj/samsum-ru
- IlyaGusev/gazeta
- zjkarina/matreshka
- rcp-meetings/rudialogsum_v2
- GEM/wiki_lingua
- mlsum
tags:
- summarization
- dialogue-summarization
- text2text-generation
- mbart
- mbart-50
widget:
  - text: >
      Актуальность проблемы. Электронная информация играет все большую  роль во всех сферах жизни современного общества. В последние годы объем научно-технической текстовой информации в электронном виде возрос настолько, что возникает угроза обесценивания этой информации в связи с трудностями поиска необходимых сведений среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными становятся методы автоматизации реферирования текстовой информации, то есть методы получения сжатого представления текстовых документов–рефератов (аннотаций). Постановка  проблемы  автоматического реферирования текста и соответственно попытки ее решения с использованием различных подходов предпринимались многими исследователями. История применения вычислительной техники для реферирования  насчитывает уже более 50 лет и связана с именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы  выработаны  многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления: автоматическое реферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт; автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), содержательно обобщающих первичные  документы.
  - text: >
      Первую многоножку, у которой более тысячи ног, обнаружили в австралийских пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по количеству ног была 700-ногая многоножка. Новый вид имеет длинное тонкое тело, похожее на нить, и большое количество конечностей, по-видимому, дает преимущества для быстрого перемещения и проникновения в труднодоступные места — ученые полагают, такая многоножка может спокойно перемещаться по трещинам в камнях. Австралия известна своими огромными и жутковатыми животными вроде 25-сантиметровых пауков. Теперь список пугающих членистоногих пополнился самой «многоногой» в мире многоножкой, у которой более тысячи ног. Необычное животное обнаружила группа исследователей из Австралии и США в пещерах на западе страны. Подробнее многоножку ученые описали в статье в журнале Scientific Reports. Исследователи занимались оценкой воздействия подземных вод на окружающую среду в зоне добычи полезных ископаемых на западе страны, когда наткнулись на новый вид многоножек. В отличие от большинства сородичей, живущих на поверхности, эти многоножки обитали в пещерах на глубине до 60 метров. Новый вид исследователи назвали Eumillipes persephone, в честь Персефоны — древнегреческой богини подземного мира. У многоножки оказалось 1306 ног — больше, чем у любого другого известного вида. Предыдущей рекордсменкой была калифорнийская Illacme plenipes, у которой насчитывалось до 750 ног. «Эти животные были настолько уникальны, — говорит биолог Бруно Бузатто. — Как только я понял, какой длины они были... Стало ясно, что это что-то совершенно новое». У Е. persephone нитевидное тело длиной около 9,5 см и шириной всего миллиметр, состоящее из 330 сегментов, короткие ноги и конусообразная голова. Как и другие животные, живущие в постоянной темноте, эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее с белой нитью, выдернутой из рубашки. Чтобы посчитать количество ног, ученым пришлось сначала снять многоножку в высоком разрешении, а затем закрашивать на фото каждый десяток ног другим цветом. (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)
---

# ru-mbart-large-summ

## Model

Model forked from [ru-bart-large](https://huggingface.co/sn4kebyt3/ru-bart-large) which is smaller version of the [facebook/mbart-large-50](https://huggingface.co/facebook/mbart-large-50) with only Russian and English embeddings.

## Data

- [d0rj/samsum-ru](https://huggingface.co/datasets/d0rj/samsum-ru)
- [IlyaGusev/gazeta](https://huggingface.co/datasets/IlyaGusev/gazeta)
- [zjkarina/matreshka](https://huggingface.co/datasets/zjkarina/matreshka)
- [rcp-meetings/rudialogsum_v2](https://huggingface.co/datasets/rcp-meetings/rudialogsum_v2)
- [GEM/wiki_lingua](https://huggingface.co/datasets/GEM/wiki_lingua)
- [mlsum](https://huggingface.co/datasets/mlsum)

All 'train' subsets was concatenated and shuffled with seed `1000 - 7`.

Train subset = 155678 rows.

## Metrics

Evaluation on 10% of concatenated 'validation' subsets = 1458 rows.

See [WandB logs](https://wandb.ai/d0rj/summarization/runs/q8w8frta).

See report at **REPORT WIP**.

## Usage

```python
from transformers import pipeline


pipe = pipeline('summarization', model='d0rj/ru-mbart-large-summ')
pipe(text)
```

```python
import torch
from transformers import AutoTokenizer, MBartModel


tokenizer = AutoTokenizer.from_pretrained('d0rj/ru-mbart-large-summ')
model = MBartModel.from_pretrained('d0rj/ru-mbart-large-summ')

inputs = tokenizer('Всё в порядке, мимо двигал Утром прозвенел будильник', return_tensors='pt')
with torch.no_grad():
    outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state
```