yhavinga's picture
Add verifyToken field to verify evaluation results are produced by Hugging Face's automatic model evaluator (#2)
7e185b5
---
language:
- nl
license: apache-2.0
tags:
- summarization
- t5
- seq2seq
datasets:
- yhavinga/mc4_nl_cleaned
- ml6team/cnn_dailymail_nl
pipeline_tag: summarization
widget:
- text: 'Het Van Goghmuseum in Amsterdam heeft vier kostbare prenten verworven van
Mary Cassatt, de Amerikaanse impressionistische kunstenaar en tijdgenoot van Vincent
van Gogh. Dat heeft het museum woensdagmiddag op een persconferentie bekendgemaakt.
Het gaat om drie grote kleurenetsen en een zwart-wit litho met voorstellingen
van vrouwen. Voor deze prenten, die afkomstig zijn van een Amerikaanse verzamelaar,
betaalde het museum ruim 1,4 miljoen euro. Drie grote fondsen en een aantal particulieren
hebben samen de aankoopsom beschikbaar gesteld. Mary Stevenson Cassatt (1844-1926)
woonde en werkte lange tijd in Frankrijk. Ze staat met haar impressionistische
schilderijen en tekeningen te boek als een van de vernieuwers van de Parijse kunstwereld
in de late negentiende eeuw. Het Van Goghmuseum rekent haar prenten „tot het mooiste
wat op grafisch gebied in het fin de siècle is geproduceerd”. De drie aangekochte
kleurenetsen – Het doorpassen, De brief en Badende vrouw – komen uit een serie
van tien waarmee Cassatt haar naam als (prent)kunstenaar definitief vestigde.
Ze maakte de etsen na een bezoek in 1890 aan een tentoonstelling van Japanse prenten
in Parijs. Over die expositie schreef de Amerikaanse aan haar vriendin Berthe
Morisot, een andere vrouwelijke impressionist: „We kunnen de Japanse prenten in
de Beaux-Arts gaan bekijken. Echt, die mag je niet missen. Als je kleurenprenten
wilt maken, is er niets mooiers voorstelbaar. Ik droom ervan en denk nergens anders
meer aan dan aan kleur op koper.'
- text: 'Afgelopen zaterdagochtend werden Hunga Tonga en Hunga Hapai opnieuw twee
aparte eilanden toen de vulkaan met een hevige explosie uitbarstte. De aanloop
tot de uitbarsting begon al eind vorig jaar met kleinere explosies. Begin januari
nam de activiteit af en dachten geologen dat de vulkaan tot rust was gekomen.
Toch barstte hij afgelopen zaterdag opnieuw uit, veel heviger dan de uitbarstingen
ervoor. Vlák voor deze explosie stortte het kilometerslange verbindingsstuk in
en verdween onder het water. De eruptie duurde acht minuten. De wolk van as en
giftige gasdeeltjes, zoals zwaveloxide, die daarbij vrijkwam, reikte tot dertig
kilometer hoogte en was zo’n vijfhonderd kilometer breed. Ter vergelijking: de
pluimen uit de recente vulkaanuitbarsting op La Palma reikten maximaal zo’n vijf
kilometer hoog. De hoofdstad van Tonga, vijfenzestig kilometer verderop is bedekt
met een dikke laag as. Dat heeft bijvoorbeeld gevolgen voor de veiligheid van
het drinkwater op Tonga. De uitbarsting van de onderzeese vulkaan in de eilandstaat
Tonga afgelopen zaterdag was bijzonder heftig. De eruptie veroorzaakte een tsunami
die reikte van Nieuw-Zeeland tot de Verenigde Staten en in Nederland ging de luchtdruk
omhoog. Geologen verwachten niet dat de vulkaan op Tonga voor een lange wereldwijde
afkoeling zorgt, zoals bij andere hevige vulkaanuitbarstingen het geval is geweest.
De vulkaan ligt onder water tussen de onbewoonde eilandjes Hunga Tonga (0,39 vierkante
kilometer) en Hunga Ha’apai (0,65 vierkante kilometer). Magma dat bij kleinere
uitbarsting in 2009 en 2014 omhoog kwam, koelde af en vormde een verbindingsstuk
tussen de twee eilanden in. Een explosie van een onderwatervulkaan als die bij
Tonga is heftiger dan bijvoorbeeld die uitbarsting op La Palma. „Dat komt doordat
het vulkanisme hier veroorzaakt wordt door subductie: de Pacifische plaat zinkt
onder Tonga de aardmantel in en neemt water mee omlaag”, zegt hoogleraar paleogeografie
Douwe van Hinsbergen van de Universiteit Utrecht. „Dit water komt met magma als
gas, als waterdamp, mee omhoog. Dat voert de druk onder de aardkost enorm op.
Arwen Deuss, geowetenschapper aan de Universiteit Utrecht, vergelijkt het met
een fles cola. „Wanneer je een fles cola schudt, zal het gas er met veel geweld
uitkomen. Dat is waarschijnlijk wat er gebeurd is op Tonga, maar we weten het
niet precies.”'
model-index:
- name: yhavinga/t5-v1.1-base-dutch-cnn-test
results:
- task:
type: summarization
name: Summarization
dataset:
name: ml6team/cnn_dailymail_nl
type: ml6team/cnn_dailymail_nl
config: default
split: test
metrics:
- type: rouge
value: 38.5454
name: ROUGE-1
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZWQwM2I0MjcwODQxZGNkMTMwZDllZjVlNzVkOWQyZDkzNDkxODE5ZjZiOWI1N2E5N2Y5MDcyZWM4ZWZjYzQ0NCIsInZlcnNpb24iOjF9.ORXcoqRJvsQyPdPQWhG3ZiYo7TYQaklYOdThMJJCrVOY1IrBjFRg_sx4e5qrQMMCwn-iVFa2YwSXPriBx49HDw
- type: rouge
value: 15.7133
name: ROUGE-2
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiY2IyZmIxZDc0NjlhNTYyY2I3OTNkYjhkZDUwMjQ1ZjRjMjE3ZjhmMmUzMjVjYTc1MDkyMzZiY2E2OGIxMzE3OCIsInZlcnNpb24iOjF9.-2pXCw3ffIZyYPfjJRrg-tlwy7PC7ICjc4m3-q3_ciXB3x8RveOuUvxfd3q8xoox2ICHaGmrdBPKXYWBFVvJDQ
- type: rouge
value: 25.9162
name: ROUGE-L
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjdiYWY3YTY1NmJhYWIzNGEwMGRkMTBlYTAyYjJkMmJiZWM4ZGUwMWE2ZTI5YzMxNDlkMWVlMDM2ZTMyYWE5YSIsInZlcnNpb24iOjF9.chltUhR_bF4vA-AOfOAi16Qor4ioBsgk4eJCosWJmdTgkCLJmN_sPAcr0Jz2qLo7dfeWwZ5ee0KcXGF4eyNyAA
- type: rouge
value: 35.4489
name: ROUGE-LSUM
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjliMjUzYzA0MTQ3MjQ2NTk1YzY0MjA3N2U4YmI5MjE1Mzk2OGIxMTM2NTEwNjg0ZGU0ZTkxNTU2ZTJmNzdhNSIsInZlcnNpb24iOjF9.7l_KXmqIgTuDXOHdlTFLm67gjsaypy-RUTEJ9unNZlTXTmKPvL1frMZ0PUm5gRi-hM2TWVcUpTnVpkmXa4bNDw
- type: loss
value: 2.0727603435516357
name: loss
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZWY0Yzc1MGUxZmIyNDdjNzhiMzVlMjI4YzIwMGNkNzVjNmE3NjgxZjYwYTA4Y2QxYmNjZThiNzE5OWYzMjExOCIsInZlcnNpb24iOjF9.ERRCuKz5IekBZihQtyRnfz4VGl7LfCDzUO6-ZbYrZO_sdTxpaEw3ID0O3Cyx2Y4hmAYEywyvC2Idb3fmmjplAQ
- type: gen_len
value: 91.1699
name: gen_len
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMmNmMDRkOGMyMDY1OGNmMmQwY2ZkMzdlMDA2NzNkYmY3NzNmMTFmYmE3MTNhOWFlN2Q2N2FhNzFhNjM4NWJjOSIsInZlcnNpb24iOjF9.Otl1b_1Muxu6I4W2ThWBFidlwmou7149pMcShI4W-jeBntQeBwrfBe-fSkvNF-8Q29I_Of3o1swJXJAWAaxTDA
---
# T5 v1.1 Base finetuned for CNN news summarization in Dutch 🇳🇱
This model is [t5-v1.1-base-dutch-cased](https://huggingface.co/yhavinga/t5-v1.1-base-dutch-cased) finetuned on [CNN Dailymail NL](https://huggingface.co/datasets/ml6team/cnn_dailymail_nl)
For a demo of the Dutch CNN summarization models, head over to the Hugging Face Spaces for
the **[Netherformer 📰](https://huggingface.co/spaces/flax-community/netherformer)** example application!
Rouge scores for this model are listed below.
## Tokenizer
* SentencePiece tokenizer trained from scratch for Dutch on mC4 nl cleaned with scripts from the Huggingface
Transformers [Flax examples](https://github.com/huggingface/transformers/tree/master/examples/flax/language-modeling).
## Dataset
All models listed below are trained on of the `full` configuration (39B tokens) of
[cleaned Dutch mC4](https://huggingface.co/datasets/yhavinga/mc4_nl_cleaned),
which is the original mC4, except
* Documents that contained words from a selection of the Dutch and English [List of Dirty Naught Obscene and Otherwise Bad Words](https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words) are removed
* Sentences with less than 3 words are removed
* Sentences with a word of more than 1000 characters are removed
* Documents with less than 5 sentences are removed
* Documents with "javascript", "lorum ipsum", "terms of use", "privacy policy", "cookie policy", "uses cookies",
"use of cookies", "use cookies", "elementen ontbreken", "deze printversie" are removed.
## Models
TL;DR: [yhavinga/t5-v1.1-base-dutch-cased](https://huggingface.co/yhavinga/t5-v1.1-base-dutch-cased) is the best model.
* `yhavinga/t5-base-dutch` is a re-training of the Dutch T5 base v1.0 model trained during the summer 2021
Flax/Jax community week. Accuracy was improved from 0.64 to 0.70.
* The two T5 v1.1 base models are an uncased and cased version of `t5-v1.1-base`, again pre-trained from scratch on Dutch,
with a tokenizer also trained from scratch. The t5 v1.1 models are slightly different from the t5 models, and the
base models are trained with a dropout of 0.0. For fine-tuning it is intended to set this back to 0.1.
* The large cased model is a pre-trained Dutch version of `t5-v1.1-large`. Training of t5-v1.1-large proved difficult.
Without dropout regularization, the training would diverge at a certain point. With dropout training went better,
be it much slower than training the t5-model. At some point convergance was too slow to warrant further training.
The latest checkpoint, training scripts and metrics are available for reference. For actual fine-tuning the cased
base model is probably the better choice.
| | model | train seq len | acc | loss | batch size | epochs | steps | dropout | optim | lr | duration |
|---------------------------------------------------------------------------------------------------|---------|---------------|----------|----------|------------|--------|---------|---------|-----------|------|----------|
| [yhavinga/t5-base-dutch](https://huggingface.co/yhavinga/t5-base-dutch) | T5 | 512 | 0,70 | 1,38 | 128 | 1 | 528481 | 0.1 | adafactor | 5e-3 | 2d 9h |
| [yhavinga/t5-v1.1-base-dutch-uncased](https://huggingface.co/yhavinga/t5-v1.1-base-dutch-uncased) | t5-v1.1 | 1024 | 0,73 | 1,20 | 64 | 2 | 1014525 | 0.0 | adafactor | 5e-3 | 5d 5h |
| [yhavinga/t5-v1.1-base-dutch-cased](https://huggingface.co/yhavinga/t5-v1.1-base-dutch-cased) | t5-v1.1 | 1024 | **0,78** | **0,96** | 64 | 2 | 1210000 | 0.0 | adafactor | 5e-3 | 6d 6h |
| [yhavinga/t5-v1.1-large-dutch-cased](https://huggingface.co/yhavinga/t5-v1.1-large-dutch-cased) | t5-v1.1 | 512 | 0,76 | 1,07 | 64 | 1 | 1120000 | 0.1 | adafactor | 5e-3 | 86 13h |
The cased t5-v1.1 Dutch models were fine-tuned on summarizing the CNN Daily Mail dataset.
| | model | input len | target len | Rouge1 | Rouge2 | RougeL | RougeLsum | Test Gen Len | epochs | batch size | steps | duration |
|-------------------------------------------------------------------------------------------------------|---------|-----------|------------|--------|--------|--------|-----------|--------------|--------|------------|-------|----------|
| [yhavinga/t5-v1.1-base-dutch-cnn-test](https://huggingface.co/yhavinga/t5-v1.1-base-dutch-cnn-test) | t5-v1.1 | 1024 | 96 | 34,8 | 13,6 | 25,2 | 32,1 | 79 | 6 | 64 | 26916 | 2h 40m |
| [yhavinga/t5-v1.1-large-dutch-cnn-test](https://huggingface.co/yhavinga/t5-v1.1-large-dutch-cnn-test) | t5-v1.1 | 1024 | 96 | 34,4 | 13,6 | 25,3 | 31,7 | 81 | 5 | 16 | 89720 | 11h |
## Acknowledgements
This project would not have been possible without compute generously provided by Google through the
[TPU Research Cloud](https://sites.research.google/trc/). The HuggingFace 🤗 ecosystem was also
instrumental in many, if not all parts of the training. The following repositories where helpful in setting up the TPU-VM,
and training the models:
* [Gsarti's Pretrain and Fine-tune a T5 model with Flax on GCP](https://github.com/gsarti/t5-flax-gcp)
* [HUggingFace Flax MLM examples](https://github.com/huggingface/transformers/tree/master/examples/flax/language-modeling)
* [Flax/Jax Community week t5-base-dutch](https://huggingface.co/flax-community/t5-base-dutch)
Created by [Yeb Havinga](https://www.linkedin.com/in/yeb-havinga-86530825/)