File size: 2,164 Bytes
aa42b90 40c7e38 aa42b90 3703773 aa42b90 b27ba23 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 |
---
license: apache-2.0
language:
- pt
pipeline_tag: text-classification
library_name: transformers
widget:
- text: |
As palavras "feliz" e "alegre" são sinônimos?
tags:
- portuguese
- bert
- sinônimos
model-index:
- name: simnonym
results:
- task:
type: text-generation
dataset:
type: lrds-code/sym-pair
name: sym-pair
config: pt
split: validation
metrics:
- type: Accuracy
value: 91.79
datasets:
- lrds-code/sym-pair
---
<hr>
# Simnonym
Simnonym é um classificador BERT-based de sinônimos da língua portuguesa.
## Entrada
A entrada deve sempre seguir o template do prompt
- **'As palavras "{}" e "{}" são sinônimos?'**
## Dados de Treinamento
O modelo foi treinado e avaliado no conjunto de dados [Sym-Pair](lrds-code/sym-pair).
Sym-Pair possui aproximadamente 1.5 milhões de sentenças que comparam pares de palavras. Esses pares podem ser sinônimos ou não.
Sym-Pair é composto por:
- Pares de sinônimos e antônimos obtidos de dois datasets ([DicSin](https://github.com/fititnt/DicSin-dicionario-sinonimos-portugues-brasileiro) e [Portuguese Brazilian Synonyms](https://github.com/stavarengo/portuguese-brazilian-synonyms)).
- Pares aleatórios de palavras não relacionadas. Obtidos através de combinação aleatória do conjunto de sinônimos.
## Descrição do Modelo
- **Desenvolvido por:** [Leonardo Souza](https://huggingface.co/lrds-code)
- **Tipo do modelo:** BERT
- **Licença:** Apache 2.0
- **Fine-tunado do modelo:** [BERTimbau Base](https://huggingface.co/neuralmind/bert-base-portuguese-cased)
## Como Usar
Exemplo de uma única classificação:
```python
import torch
from transformers import AutoTokenizer
from transformers import AutoModelForSequenceClassification
model_name = 'lrds-code/simnonym'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
inputs = tokenizer('As palavras "feliz" e "alegre" são sinônimos?', return_tensors='pt')
with torch.no_grad():
output = model(**inputs).logits
predict_id = logits.argmax().item()
model.config.id2label[predict_id]
``` |