|
--- |
|
tags: |
|
- summarization |
|
- bart |
|
language: |
|
- gr |
|
license: mit |
|
pipeline_tag: fill-mask |
|
library_name: transformers |
|
--- |
|
# GreekBART: The First Pretrained Greek Sequence-to-Sequence Model |
|
|
|
## Introduction |
|
GreekBART is a Greek sequence to sequence pretrained model based on [BART](https://huggingface.co/facebook/bart-large). |
|
GreekBART is pretrained by learning to reconstruct a corrupted input sentence. A corpus of 76.9GB of Greek raw text is used to carry out the pretraining. |
|
Unlike already existing BERT-based Greek language model (GreekBERT), GreekBART is particularly well-suited for generative tasks (such as abstractive summarization), since not only its encoder but also its decoder is pretrained. |
|
In addition to base GreekBART that is pretrained from scratch on the reconstruction, we finetune it as wll on three tasks: `greekbart-news24-abstract` that can generate an abstract given a Greek news article, `greekbart-news24-title` that can generate an title given a Greek news article, and `greekbart-sentiment-classification` finetuned on a binary sentinement classification task. |
|
|
|
| Model | Architecture | #layers | #params | |
|
| ------------- |:-------------:| :-----:|:-----:| |
|
| [GreekBART](https://huggingface.co/dascim/greekbart) | BASE | 12 | 165M | |
|
| [GreekBART Abstract](https://huggingface.co/dascim/greekbart-news27-abstract) | BASE | 12 | 165M | |
|
| [GreekBART Title](https://huggingface.co/dascim/greekbart-news27-title) | BASE | 12 | 165M | |
|
| [GreekBART Sentiment Classification](https://huggingface.co/dascim/greekbart-news27-title) | BASE | 12 | 165M | |
|
|
|
<br> |
|
|
|
paper: https://arxiv.org/pdf/2304.00869 \ |
|
github: https://github.com/iakovosevdaimon/GreekBART |
|
|
|
|
|
## Usage |
|
### Mask Prediction |
|
```python |
|
from transformers import pipeline |
|
|
|
greekbart_fill_mask = pipeline("fill-mask", model="dascim/greekbart", tokenizer="dascim/greekbart") |
|
results = greekbart_fill_mask("Η πρωτεύουσα της Ελλάδας είναι η <mask>") |
|
|
|
results[0] |
|
# {'score': 0.597200870513916, 'token': 7062, 'token_str': 'Αθήνα', 'sequence': 'Η πρωτεύουσα της Ελλάδας είναι η Αθήνα'}, |
|
|
|
``` |
|
### Abstract Generation |
|
```python |
|
text_sentence = 'Στην κατάθεση νοσηλεύτριας του Καραμανδάνειου Νοσοκομείου Πάτρας Παναγιώτας Τσεντούρου, η οποία εργαζόταν όταν εισήχθη στις 8 Απριλίου 2021 η Τζωρτζίνα, προχώρησε η διαδικασία ενώπιον του ΜΟΔ που δικάζει τη Ρούλα Πισπιρίγκου. Η νοσηλεύτρια κατέθεσε πως κατά την εισαγωγή του παιδιού "μου ανέφεραν πως είναι ένα παιδάκι που έχει χάσει τα αδελφάκια του και ότι είναι ιδιαίτερη περίπτωση" και εξιστόρησε τα γεγονότα της ημέρας εισαγωγής και της επομένης που η ίδια είχε βάρδια στην παιδιατρική κλινική.' |
|
|
|
from transformers import ( |
|
AutoTokenizer, |
|
AutoModelForSeq2SeqLM |
|
) |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-news24-abstract") |
|
model = AutoModelForSeq2SeqLM.from_pretrained("dascim/greekbart-news24-abstract") |
|
|
|
input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt') |
|
|
|
model.eval() |
|
predict = model.generate(input_ids, max_length=100)[0] |
|
|
|
|
|
tokenizer.decode(predict, skip_special_tokens=True) |
|
#'Η νοσηλεύτρια κατέθεσε πως κατά την εισαγωγή του παιδιού "μου ανέφεραν πως είναι ένα παιδάκι που έχει χάσει τα αδελφάκια του και ότι είναι ιδιαίτερη περίπτωση".' |
|
``` |
|
|
|
### Title Generation |
|
```python |
|
text_sentence = 'Στην κατάθεση νοσηλεύτριας του Καραμανδάνειου Νοσοκομείου Πάτρας Παναγιώτας Τσεντούρου, η οποία εργαζόταν όταν εισήχθη στις 8 Απριλίου 2021 η Τζωρτζίνα, προχώρησε η διαδικασία ενώπιον του ΜΟΔ που δικάζει τη Ρούλα Πισπιρίγκου. Η νοσηλεύτρια κατέθεσε πως κατά την εισαγωγή του παιδιού "μου ανέφεραν πως είναι ένα παιδάκι που έχει χάσει τα αδελφάκια του και ότι είναι ιδιαίτερη περίπτωση" και εξιστόρησε τα γεγονότα της ημέρας εισαγωγής και της επομένης που η ίδια είχε βάρδια στην παιδιατρική κλινική.' |
|
|
|
from transformers import ( |
|
AutoTokenizer, |
|
AutoModelForSeq2SeqLM |
|
) |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-news24-title") |
|
model = AutoModelForSeq2SeqLM.from_pretrained("dascim/greekbart-news24-title") |
|
|
|
input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt') |
|
|
|
model.eval() |
|
predict = model.generate(input_ids, max_length=100)[0] |
|
|
|
|
|
tokenizer.decode(predict, skip_special_tokens=True) |
|
# 'Πάτρα: Κατάθεση νοσηλεύτριας για την εισαγωγή της Τζωρτζίνας στο νοσοκομείο' |
|
``` |
|
|
|
### Sentiment Prediction |
|
```python |
|
text_sentence = "Ο ελληνικός πολιτισμός είναι ένας από τους πιο πλούσιους και αναγνωρισμένους πολιτισμούς." |
|
|
|
from transformers import ( |
|
AutoTokenizer, |
|
AutoModelForSequenceClassification |
|
) |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-sentiment-classification") |
|
model = AutoModelForSequenceClassification.from_pretrained("dascim/greekbart-sentiment-classification") |
|
|
|
input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt') |
|
|
|
model.eval() |
|
predict = model(input_ids)[0] |
|
|
|
print("negative" if predict.argmax(dim=-1).item()==1 else "positive") |
|
# positive |
|
``` |
|
|
|
## Authors |
|
GreekBART was trained and evaluated ar École Polytechnique by Iakovos Evdaimon, Hadi Abdine, Christos Xypolopoulos, Stamatis Outsios, Michalis Vazirgiannis and Giorgos Stamou. |
|
|
|
## Citation |
|
If you use our work, please cite: |
|
```bibtex |
|
@inproceedings{evdaimon-etal-2024-greekbart, |
|
title = "{G}reek{BART}: The First Pretrained {G}reek Sequence-to-Sequence Model", |
|
author = "Evdaimon, Iakovos and |
|
Abdine, Hadi and |
|
Xypolopoulos, Christos and |
|
Outsios, Stamatis and |
|
Vazirgiannis, Michalis and |
|
Stamou, Giorgos", |
|
editor = "Calzolari, Nicoletta and |
|
Kan, Min-Yen and |
|
Hoste, Veronique and |
|
Lenci, Alessandro and |
|
Sakti, Sakriani and |
|
Xue, Nianwen", |
|
booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", |
|
month = may, |
|
year = "2024", |
|
address = "Torino, Italia", |
|
publisher = "ELRA and ICCL", |
|
url = "https://aclanthology.org/2024.lrec-main.700", |
|
pages = "7949--7962", |
|
} |
|
``` |