jarodrigues
commited on
Commit
•
1f7e4c0
1
Parent(s):
4c78397
Update README.md
Browse files
README.md
CHANGED
@@ -12,7 +12,7 @@ datasets:
|
|
12 |
- brwac
|
13 |
- europarl
|
14 |
widget:
|
15 |
-
- text: "A culinária brasileira é rica em sabores e [MASK], tornando-se um dos maiores
|
16 |
---
|
17 |
|
18 |
|
@@ -139,7 +139,7 @@ We address four tasks from those in PLUE, namely:
|
|
139 |
| **Albertina-PT-PT** | **0.7960** | 0.4507 | **0.9151**| 0.8799 |
|
140 |
|
141 |
|
142 |
-
We resorted to [GLUE-PT](https://huggingface.co/datasets/PORTULAN/
|
143 |
We automatically translated the same four tasks from GLUE using [DeepL Translate](https://www.deepl.com/), which specifically provides translation from English to PT-PT as an option.
|
144 |
|
145 |
| Model | RTE (Accuracy) | WNLI (Accuracy)| MRPC (F1) | STS-B (Pearson) |
|
@@ -156,15 +156,10 @@ You can use this model directly with a pipeline for masked language modeling:
|
|
156 |
|
157 |
```python
|
158 |
>>> from transformers import pipeline
|
159 |
-
>>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-
|
160 |
-
>>> unmasker("A culinária
|
161 |
-
|
162 |
-
[{'score': 0.9166129231452942, 'token': 23395, 'token_str': 'aromas', 'sequence': 'A culinária portuguesa é rica em sabores e aromas, tornando-se um dos maiores tesouros do país.'},
|
163 |
-
{'score': 0.022932516410946846, 'token': 10392, 'token_str': 'costumes', 'sequence': 'A culinária portuguesa é rica em sabores e costumes, tornando-se um dos maiores tesouros do país.'},
|
164 |
-
{'score': 0.013932268135249615, 'token': 21925, 'token_str': 'cores', 'sequence': 'A culinária portuguesa é rica em sabores e cores, tornando-se um dos maiores tesouros do país.'},
|
165 |
-
{'score': 0.009870869107544422, 'token': 22647, 'token_str': 'nuances', 'sequence': 'A culinária portuguesa é rica em sabores e nuances, tornando-se um dos maiores tesouros do país.'},
|
166 |
-
{'score': 0.007260020822286606, 'token': 12881, 'token_str': 'aroma', 'sequence': 'A culinária portuguesa é rica em sabores e aroma, tornando-se um dos maiores tesouros do país.'}]
|
167 |
|
|
|
168 |
|
169 |
```
|
170 |
|
@@ -174,16 +169,16 @@ The model can be used by fine-tuning it for a specific task:
|
|
174 |
>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
|
175 |
>>> from datasets import load_dataset
|
176 |
|
177 |
-
>>> model = AutoModelForSequenceClassification.from_pretrained("PORTULAN/albertina-
|
178 |
-
>>> tokenizer = AutoTokenizer.from_pretrained("PORTULAN/albertina-
|
179 |
-
>>> dataset = load_dataset("PORTULAN/
|
180 |
|
181 |
>>> def tokenize_function(examples):
|
182 |
... return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)
|
183 |
|
184 |
>>> tokenized_datasets = dataset.map(tokenize_function, batched=True)
|
185 |
|
186 |
-
>>> training_args = TrainingArguments(output_dir="albertina-
|
187 |
>>> trainer = Trainer(
|
188 |
... model=model,
|
189 |
... args=training_args,
|
|
|
12 |
- brwac
|
13 |
- europarl
|
14 |
widget:
|
15 |
+
- text: "A culinária brasileira é rica em sabores e [MASK], tornando-se um dos maiores patrimônios do país."
|
16 |
---
|
17 |
|
18 |
|
|
|
139 |
| **Albertina-PT-PT** | **0.7960** | 0.4507 | **0.9151**| 0.8799 |
|
140 |
|
141 |
|
142 |
+
We resorted to [GLUE-PT](https://huggingface.co/datasets/PORTULAN/glue-ptpt), a **PT-PT version of the GLUE** benchmark.
|
143 |
We automatically translated the same four tasks from GLUE using [DeepL Translate](https://www.deepl.com/), which specifically provides translation from English to PT-PT as an option.
|
144 |
|
145 |
| Model | RTE (Accuracy) | WNLI (Accuracy)| MRPC (F1) | STS-B (Pearson) |
|
|
|
156 |
|
157 |
```python
|
158 |
>>> from transformers import pipeline
|
159 |
+
>>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-ptbr')
|
160 |
+
>>> unmasker("A culinária brasileira é rica em sabores e [MASK], tornando-se um dos maiores patrimônios do país.")
|
|
|
|
|
|
|
|
|
|
|
|
|
161 |
|
162 |
+
TODO
|
163 |
|
164 |
```
|
165 |
|
|
|
169 |
>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
|
170 |
>>> from datasets import load_dataset
|
171 |
|
172 |
+
>>> model = AutoModelForSequenceClassification.from_pretrained("PORTULAN/albertina-ptbr", num_labels=2)
|
173 |
+
>>> tokenizer = AutoTokenizer.from_pretrained("PORTULAN/albertina-ptbr")
|
174 |
+
>>> dataset = load_dataset("PORTULAN/glue-ptpt", "rte")
|
175 |
|
176 |
>>> def tokenize_function(examples):
|
177 |
... return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)
|
178 |
|
179 |
>>> tokenized_datasets = dataset.map(tokenize_function, batched=True)
|
180 |
|
181 |
+
>>> training_args = TrainingArguments(output_dir="albertina-ptbr-rte", evaluation_strategy="epoch")
|
182 |
>>> trainer = Trainer(
|
183 |
... model=model,
|
184 |
... args=training_args,
|