jarodrigues commited on
Commit
1f7e4c0
1 Parent(s): 4c78397

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +9 -14
README.md CHANGED
@@ -12,7 +12,7 @@ datasets:
12
  - brwac
13
  - europarl
14
  widget:
15
- - text: "A culinária brasileira é rica em sabores e [MASK], tornando-se um dos maiores tesouros do país."
16
  ---
17
 
18
 
@@ -139,7 +139,7 @@ We address four tasks from those in PLUE, namely:
139
  | **Albertina-PT-PT** | **0.7960** | 0.4507 | **0.9151**| 0.8799 |
140
 
141
 
142
- We resorted to [GLUE-PT](https://huggingface.co/datasets/PORTULAN/glueptpt), a **PT-PT version of the GLUE** benchmark.
143
  We automatically translated the same four tasks from GLUE using [DeepL Translate](https://www.deepl.com/), which specifically provides translation from English to PT-PT as an option.
144
 
145
  | Model | RTE (Accuracy) | WNLI (Accuracy)| MRPC (F1) | STS-B (Pearson) |
@@ -156,15 +156,10 @@ You can use this model directly with a pipeline for masked language modeling:
156
 
157
  ```python
158
  >>> from transformers import pipeline
159
- >>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-ptpt')
160
- >>> unmasker("A culinária portuguesa é rica em sabores e [MASK], tornando-se um dos maiores tesouros do país.")
161
-
162
- [{'score': 0.9166129231452942, 'token': 23395, 'token_str': 'aromas', 'sequence': 'A culinária portuguesa é rica em sabores e aromas, tornando-se um dos maiores tesouros do país.'},
163
- {'score': 0.022932516410946846, 'token': 10392, 'token_str': 'costumes', 'sequence': 'A culinária portuguesa é rica em sabores e costumes, tornando-se um dos maiores tesouros do país.'},
164
- {'score': 0.013932268135249615, 'token': 21925, 'token_str': 'cores', 'sequence': 'A culinária portuguesa é rica em sabores e cores, tornando-se um dos maiores tesouros do país.'},
165
- {'score': 0.009870869107544422, 'token': 22647, 'token_str': 'nuances', 'sequence': 'A culinária portuguesa é rica em sabores e nuances, tornando-se um dos maiores tesouros do país.'},
166
- {'score': 0.007260020822286606, 'token': 12881, 'token_str': 'aroma', 'sequence': 'A culinária portuguesa é rica em sabores e aroma, tornando-se um dos maiores tesouros do país.'}]
167
 
 
168
 
169
  ```
170
 
@@ -174,16 +169,16 @@ The model can be used by fine-tuning it for a specific task:
174
  >>> from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
175
  >>> from datasets import load_dataset
176
 
177
- >>> model = AutoModelForSequenceClassification.from_pretrained("PORTULAN/albertina-ptpt", num_labels=2)
178
- >>> tokenizer = AutoTokenizer.from_pretrained("PORTULAN/albertina-ptpt")
179
- >>> dataset = load_dataset("PORTULAN/glueptpt", "rte")
180
 
181
  >>> def tokenize_function(examples):
182
  ... return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)
183
 
184
  >>> tokenized_datasets = dataset.map(tokenize_function, batched=True)
185
 
186
- >>> training_args = TrainingArguments(output_dir="albertina-ptpt-rte", evaluation_strategy="epoch")
187
  >>> trainer = Trainer(
188
  ... model=model,
189
  ... args=training_args,
 
12
  - brwac
13
  - europarl
14
  widget:
15
+ - text: "A culinária brasileira é rica em sabores e [MASK], tornando-se um dos maiores patrimônios do país."
16
  ---
17
 
18
 
 
139
  | **Albertina-PT-PT** | **0.7960** | 0.4507 | **0.9151**| 0.8799 |
140
 
141
 
142
+ We resorted to [GLUE-PT](https://huggingface.co/datasets/PORTULAN/glue-ptpt), a **PT-PT version of the GLUE** benchmark.
143
  We automatically translated the same four tasks from GLUE using [DeepL Translate](https://www.deepl.com/), which specifically provides translation from English to PT-PT as an option.
144
 
145
  | Model | RTE (Accuracy) | WNLI (Accuracy)| MRPC (F1) | STS-B (Pearson) |
 
156
 
157
  ```python
158
  >>> from transformers import pipeline
159
+ >>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-ptbr')
160
+ >>> unmasker("A culinária brasileira é rica em sabores e [MASK], tornando-se um dos maiores patrimônios do país.")
 
 
 
 
 
 
161
 
162
+ TODO
163
 
164
  ```
165
 
 
169
  >>> from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
170
  >>> from datasets import load_dataset
171
 
172
+ >>> model = AutoModelForSequenceClassification.from_pretrained("PORTULAN/albertina-ptbr", num_labels=2)
173
+ >>> tokenizer = AutoTokenizer.from_pretrained("PORTULAN/albertina-ptbr")
174
+ >>> dataset = load_dataset("PORTULAN/glue-ptpt", "rte")
175
 
176
  >>> def tokenize_function(examples):
177
  ... return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)
178
 
179
  >>> tokenized_datasets = dataset.map(tokenize_function, batched=True)
180
 
181
+ >>> training_args = TrainingArguments(output_dir="albertina-ptbr-rte", evaluation_strategy="epoch")
182
  >>> trainer = Trainer(
183
  ... model=model,
184
  ... args=training_args,