|
--- |
|
license: apache-2.0 |
|
language: |
|
- hu |
|
metrics: |
|
- accuracy |
|
- f1 |
|
library_name: transformers |
|
pipeline_tag: token-classification |
|
tags: |
|
- punctuation |
|
- punctuation_restoration |
|
- hungarian |
|
- hungarian web corpus |
|
- punctuation restoration |
|
- központozás |
|
--- |
|
# Model Card for Model ID |
|
|
|
This model can restore punctuation and auto-capitalize lower cased Hungarian text. It was trained on the Hungarian Web Corpus with over 4 million examples and 300+ million tokens. |
|
Supported punctuations: Colon(:), Comma(,), Dot(.), Exclamation(!), Hyphen(-), Question(?) and the upper case versions of these, as well as a standalone Upper class for capitalization. |
|
|
|
## Model Details |
|
|
|
COLON COMMA DOT EXCLAM HYPHEN QUES |
|
0.614 0.865 0.863 0.439 0.802 0.782 F1-SCORE |
|
21686 471759 284383 13638 85858 13714 SUPPORT |
|
|
|
UPPER UPCOLON UPCOMMA UPDOT UPEXCLAM UPHYPHEN UPQUES |
|
0.918 0.700 0.820 0.831 0.579 0.822 0.593 F1-SCORE |
|
671674 6314 63106 27618 3334 44859 1402 SUPPORT |
|
|
|
*********************************************************************** |
|
micro macro CDQ |
|
avg avg macro |
|
0.872 0.741 0.837 F1-SCORE |
|
|
|
|
|
### Model Description |
|
|
|
I aim to fill the gap between Speech Recognition (speech2text) and downstream NLP tasks by developing a model for Automatic Punctuation Restoration (APR) in Hungarian called ‘hupunct’, that has raw unpunctuated lower-cased text as its input, and has the corrected, punctuated text as its output. The solution is based on a widely used NLP technique, which involves the finetuning of a pretrained special deep neural network, a Transformer. |
|
The hupunct model, after training for less than one epoch on the dataset generated from the Hungarian Web Corpus reached a test micro average F1-score of 87.2% and macro average F1-score of 74,1%. The CDQ macro F1-score achieved was 83.7%. This surpasses the current state-of-the art Hungarian model, although on a different but arguably harder dataset, even with using only one prediction per token. The model learned to restore punctuations belonging to the additional base punctuation classes and all the upper versions of those classes to a reasonable extent. Additionally, it can also auto-capitalize, which is a convenient feature. The finetuning of huBERT for the APR task in Hungarian proved to be a powerful and very practical approach, especially with the usage of the HF platform. |
|
|
|
### Examples |
|
|
|
Input: |
|
'gerendai páltól a következőt idézzük gyermekkorom óta szeretem a balatont a balatoni tájak mindig is lenyűgöztek és néha néha mikor a balaton partján sétálok szívemet elönti a szeretet hogyan lehet valami ilyen szép a következő vendégünk hambuch kevin a balatonfenyvesi egyetem doktora a knorr bremse kutatás fejlesztésért felelős vezetője kevin ilyen olyan projektekben vett részt a mta val közösen majd 1999 ben alapítottak barátjával csisztapusztai arnolddal egy céget megpedíg a gránit kft t ezután kezdte meg tevékenységét a német cégnél ahol a gránit kft ben szerzett tapasztalatát kamatoztatja' |
|
|
|
Output: |
|
'Gerendai Páltól a következőt idézzük: Gyermekkorom óta szeretem a Balatont. A balatoni tájak mindig is lenyűgöztek, és néha-néha, mikor a Balaton partján sétálok, szívemet elönti a szeretet. Hogyan lehet valami ilyen szép? A következő vendégünk Hambuch Kevin, a Balatonfenyvesi Egyetem doktora, a Knorr-Bremse kutatás-fejlesztésért felelős vezetője. Kevin ilyen-olyan projektekben vett részt a Mta-val közösen, majd 1999-ben alapítottak barátjával, Csisztapusztai Arnolddal egy céget, megpedíg a Gránit Kft-t. Ezután kezdte meg tevékenységét a német cégnél, ahol a Gránit Kft-ben szerzett tapasztalatát kamatoztatja.' |
|
|
|
|
|
- **Developed by:** Tamás Gyenis - tamgyen@gmail.com |
|
|