PORTULAN
/

albertina-900m-portuguese-ptpt-encoder

foundation model

Inference Endpoints

Model card Files Files and versions Community

jarodrigues commited on May 8, 2023

Commit

7c17f88

•

1 Parent(s): 3c821e4

Update README.md

Files changed (1) hide show

README.md +25 -0

README.md CHANGED Viewed

@@ -128,6 +128,31 @@ You can use this model directly with a pipeline for masked language modeling:
 ```
 # Citation

 ```
+The model can be used by fine-tuning it for a specific task:
+```python
+>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
+>>> from datasets import load_dataset
+>>> model = AutoModelForSequenceClassification.from_pretrained("PORTULAN/albertina-pt-pt", num_labels=2)
+>>> tokenizer = AutoTokenizer.from_pretrained("PORTULAN/albertina-pt-pt")
+>>> dataset = load_dataset("PORTULAN/glueptpt", "rte")
+>>> def tokenize_function(examples):
+...     return tokenizer(examples["text"], padding="max_length", truncation=True)
+>>> tokenized_datasets = dataset.map(tokenize_function, batched=True)
+>>> training_args = TrainingArguments(output_dir="albertina-pt-pt-rte", evaluation_strategy="epoch")
+>>> trainer = Trainer(
+...     model=model,
+...     args=training_args,
+...     train_dataset=tokenized_datasets["train"],
+...     eval_dataset=tokenized_datasets["validation"],
+... )
+>>> trainer.train()
+```
 # Citation