File size: 11,105 Bytes
31857b8 af2363c 31857b8 8557293 a755272 7df8e83 af2363c 8557293 0a2255a a9cf31c 31857b8 e4ef2ec 5c4ca05 af2363c 3099b33 af2363c f2582be af2363c f2582be af2363c f2582be af2363c f2582be af2363c e4ef2ec af2363c f2582be e4ef2ec af2363c f2582be af2363c e4ef2ec f2582be |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 |
---
language:
- nl
datasets:
- yhavinga/mc4_nl_cleaned
- ml6team/cnn_dailymail_nl
tags:
- summarization
- t5
- seq2seq
license: apache-2.0
pipeline_tag: summarization
widget:
- text: "Het Van Goghmuseum in Amsterdam heeft vier kostbare prenten verworven van\
\ Mary Cassatt, de Amerikaanse impressionistische kunstenaar en tijdgenoot van\
\ Vincent van Gogh. Dat heeft het museum woensdagmiddag op een persconferentie\
\ bekendgemaakt. Het gaat om drie grote kleurenetsen en een zwart-wit litho met\
\ voorstellingen van vrouwen. Voor deze prenten, die afkomstig zijn van een Amerikaanse\
\ verzamelaar, betaalde het museum ruim 1,4 miljoen euro. Drie grote fondsen en\
\ een aantal particulieren hebben samen de aankoopsom beschikbaar gesteld. Mary\
\ Stevenson Cassatt (1844-1926) woonde en werkte lange tijd in Frankrijk. Ze staat\
\ met haar impressionistische schilderijen en tekeningen te boek als een van de\
\ vernieuwers van de Parijse kunstwereld in de late negentiende eeuw. Het Van\
\ Goghmuseum rekent haar prenten \u201Etot het mooiste wat op grafisch gebied\
\ in het fin de si\xE8cle is geproduceerd\u201D. De drie aangekochte kleurenetsen\
\ \u2013 Het doorpassen, De brief en Badende vrouw \u2013 komen uit een serie\
\ van tien waarmee Cassatt haar naam als (prent)kunstenaar definitief vestigde.\
\ Ze maakte de etsen na een bezoek in 1890 aan een tentoonstelling van Japanse\
\ prenten in Parijs. Over die expositie schreef de Amerikaanse aan haar vriendin\
\ Berthe Morisot, een andere vrouwelijke impressionist: \u201EWe kunnen de Japanse\
\ prenten in de Beaux-Arts gaan bekijken. Echt, die mag je niet missen. Als je\
\ kleurenprenten wilt maken, is er niets mooiers voorstelbaar. Ik droom ervan\
\ en denk nergens anders meer aan dan aan kleur op koper."
- text: "Afgelopen zaterdagochtend werden Hunga Tonga en Hunga Hapai opnieuw twee\
\ aparte eilanden toen de vulkaan met een hevige explosie uitbarstte. De aanloop\
\ tot de uitbarsting begon al eind vorig jaar met kleinere explosies. Begin januari\
\ nam de activiteit af en dachten geologen dat de vulkaan tot rust was gekomen.\
\ Toch barstte hij afgelopen zaterdag opnieuw uit, veel heviger dan de uitbarstingen\
\ ervoor. Vl\xE1k voor deze explosie stortte het kilometerslange verbindingsstuk\
\ in en verdween onder het water. De eruptie duurde acht minuten. De wolk van\
\ as en giftige gasdeeltjes, zoals zwaveloxide, die daarbij vrijkwam, reikte tot\
\ dertig kilometer hoogte en was zo\u2019n vijfhonderd kilometer breed. Ter vergelijking:\
\ de pluimen uit de recente vulkaanuitbarsting op La Palma reikten maximaal zo\u2019\
n vijf kilometer hoog. De hoofdstad van Tonga, vijfenzestig kilometer verderop\
\ is bedekt met een dikke laag as. Dat heeft bijvoorbeeld gevolgen voor de veiligheid\
\ van het drinkwater op Tonga. De uitbarsting van de onderzeese vulkaan in de\
\ eilandstaat Tonga afgelopen zaterdag was bijzonder heftig. De eruptie veroorzaakte\
\ een tsunami die reikte van Nieuw-Zeeland tot de Verenigde Staten en in Nederland\
\ ging de luchtdruk omhoog. Geologen verwachten niet dat de vulkaan op Tonga voor\
\ een lange wereldwijde afkoeling zorgt, zoals bij andere hevige vulkaanuitbarstingen\
\ het geval is geweest. De vulkaan ligt onder water tussen de onbewoonde eilandjes\
\ Hunga Tonga (0,39 vierkante kilometer) en Hunga Ha\u2019apai (0,65 vierkante\
\ kilometer). Magma dat bij kleinere uitbarsting in 2009 en 2014 omhoog kwam,\
\ koelde af en vormde een verbindingsstuk tussen de twee eilanden in. Een explosie\
\ van een onderwatervulkaan als die bij Tonga is heftiger dan bijvoorbeeld die\
\ uitbarsting op La Palma. \u201EDat komt doordat het vulkanisme hier veroorzaakt\
\ wordt door subductie: de Pacifische plaat zinkt onder Tonga de aardmantel in\
\ en neemt water mee omlaag\u201D, zegt hoogleraar paleogeografie Douwe van Hinsbergen\
\ van de Universiteit Utrecht. \u201EDit water komt met magma als gas, als waterdamp,\
\ mee omhoog. Dat voert de druk onder de aardkost enorm op. Arwen Deuss, geowetenschapper\
\ aan de Universiteit Utrecht, vergelijkt het met een fles cola. \u201EWanneer\
\ je een fles cola schudt, zal het gas er met veel geweld uitkomen. Dat is waarschijnlijk\
\ wat er gebeurd is op Tonga, maar we weten het niet precies.\u201D"
model-index:
- name: yhavinga/t5-v1.1-base-dutch-cnn-test
results:
- task:
type: summarization
name: Summarization
dataset:
name: ml6team/cnn_dailymail_nl
type: ml6team/cnn_dailymail_nl
config: default
split: test
metrics:
- name: ROUGE-1
type: rouge
value: 38.5454
verified: true
- name: ROUGE-2
type: rouge
value: 15.7133
verified: true
- name: ROUGE-L
type: rouge
value: 25.9162
verified: true
- name: ROUGE-LSUM
type: rouge
value: 35.4489
verified: true
- name: loss
type: loss
value: 2.0727603435516357
verified: true
- name: gen_len
type: gen_len
value: 91.1699
verified: true
---
# T5 v1.1 Base finetuned for CNN news summarization in Dutch 🇳🇱
This model is [t5-v1.1-base-dutch-cased](https://huggingface.co/yhavinga/t5-v1.1-base-dutch-cased) finetuned on [CNN Dailymail NL](https://huggingface.co/datasets/ml6team/cnn_dailymail_nl)
For a demo of the Dutch CNN summarization models, head over to the Hugging Face Spaces for
the **[Netherformer 📰](https://huggingface.co/spaces/flax-community/netherformer)** example application!
Rouge scores for this model are listed below.
## Tokenizer
* SentencePiece tokenizer trained from scratch for Dutch on mC4 nl cleaned with scripts from the Huggingface
Transformers [Flax examples](https://github.com/huggingface/transformers/tree/master/examples/flax/language-modeling).
## Dataset
All models listed below are trained on of the `full` configuration (39B tokens) of
[cleaned Dutch mC4](https://huggingface.co/datasets/yhavinga/mc4_nl_cleaned),
which is the original mC4, except
* Documents that contained words from a selection of the Dutch and English [List of Dirty Naught Obscene and Otherwise Bad Words](https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words) are removed
* Sentences with less than 3 words are removed
* Sentences with a word of more than 1000 characters are removed
* Documents with less than 5 sentences are removed
* Documents with "javascript", "lorum ipsum", "terms of use", "privacy policy", "cookie policy", "uses cookies",
"use of cookies", "use cookies", "elementen ontbreken", "deze printversie" are removed.
## Models
TL;DR: [yhavinga/t5-v1.1-base-dutch-cased](https://huggingface.co/yhavinga/t5-v1.1-base-dutch-cased) is the best model.
* `yhavinga/t5-base-dutch` is a re-training of the Dutch T5 base v1.0 model trained during the summer 2021
Flax/Jax community week. Accuracy was improved from 0.64 to 0.70.
* The two T5 v1.1 base models are an uncased and cased version of `t5-v1.1-base`, again pre-trained from scratch on Dutch,
with a tokenizer also trained from scratch. The t5 v1.1 models are slightly different from the t5 models, and the
base models are trained with a dropout of 0.0. For fine-tuning it is intended to set this back to 0.1.
* The large cased model is a pre-trained Dutch version of `t5-v1.1-large`. Training of t5-v1.1-large proved difficult.
Without dropout regularization, the training would diverge at a certain point. With dropout training went better,
be it much slower than training the t5-model. At some point convergance was too slow to warrant further training.
The latest checkpoint, training scripts and metrics are available for reference. For actual fine-tuning the cased
base model is probably the better choice.
| | model | train seq len | acc | loss | batch size | epochs | steps | dropout | optim | lr | duration |
|---------------------------------------------------------------------------------------------------|---------|---------------|----------|----------|------------|--------|---------|---------|-----------|------|----------|
| [yhavinga/t5-base-dutch](https://huggingface.co/yhavinga/t5-base-dutch) | T5 | 512 | 0,70 | 1,38 | 128 | 1 | 528481 | 0.1 | adafactor | 5e-3 | 2d 9h |
| [yhavinga/t5-v1.1-base-dutch-uncased](https://huggingface.co/yhavinga/t5-v1.1-base-dutch-uncased) | t5-v1.1 | 1024 | 0,73 | 1,20 | 64 | 2 | 1014525 | 0.0 | adafactor | 5e-3 | 5d 5h |
| [yhavinga/t5-v1.1-base-dutch-cased](https://huggingface.co/yhavinga/t5-v1.1-base-dutch-cased) | t5-v1.1 | 1024 | **0,78** | **0,96** | 64 | 2 | 1210000 | 0.0 | adafactor | 5e-3 | 6d 6h |
| [yhavinga/t5-v1.1-large-dutch-cased](https://huggingface.co/yhavinga/t5-v1.1-large-dutch-cased) | t5-v1.1 | 512 | 0,76 | 1,07 | 64 | 1 | 1120000 | 0.1 | adafactor | 5e-3 | 86 13h |
The cased t5-v1.1 Dutch models were fine-tuned on summarizing the CNN Daily Mail dataset.
| | model | input len | target len | Rouge1 | Rouge2 | RougeL | RougeLsum | Test Gen Len | epochs | batch size | steps | duration |
|-------------------------------------------------------------------------------------------------------|---------|-----------|------------|--------|--------|--------|-----------|--------------|--------|------------|-------|----------|
| [yhavinga/t5-v1.1-base-dutch-cnn-test](https://huggingface.co/yhavinga/t5-v1.1-base-dutch-cnn-test) | t5-v1.1 | 1024 | 96 | 34,8 | 13,6 | 25,2 | 32,1 | 79 | 6 | 64 | 26916 | 2h 40m |
| [yhavinga/t5-v1.1-large-dutch-cnn-test](https://huggingface.co/yhavinga/t5-v1.1-large-dutch-cnn-test) | t5-v1.1 | 1024 | 96 | 34,4 | 13,6 | 25,3 | 31,7 | 81 | 5 | 16 | 89720 | 11h |
## Acknowledgements
This project would not have been possible without compute generously provided by Google through the
[TPU Research Cloud](https://sites.research.google/trc/). The HuggingFace 🤗 ecosystem was also
instrumental in many, if not all parts of the training. The following repositories where helpful in setting up the TPU-VM,
and training the models:
* [Gsarti's Pretrain and Fine-tune a T5 model with Flax on GCP](https://github.com/gsarti/t5-flax-gcp)
* [HUggingFace Flax MLM examples](https://github.com/huggingface/transformers/tree/master/examples/flax/language-modeling)
* [Flax/Jax Community week t5-base-dutch](https://huggingface.co/flax-community/t5-base-dutch)
Created by [Yeb Havinga](https://www.linkedin.com/in/yeb-havinga-86530825/) |