library_name: transformers
license: mit
base_model: neuralmind/bert-base-portuguese-cased
tags:
- generated_from_trainer
metrics:
- accuracy
- f1
- recall
- precision
model-index:
- name: neuralmind/bert-base-portuguese-cased
results: []
neuralmind/bert-base-portuguese-cased
Descrição do Modelo
Este modelo é uma versão ajustada do modelo pré-treinado neuralmind/bert-base-portuguese-cased. Ele foi especificamente adaptado para classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres, com base no conteúdo de seus resumos (ementa) e texto completo (inteiro teor). O objetivo do modelo é compreender as nuances dos impactos de gênero em contextos jurídicos. O modelo utiliza a arquitetura BERT, projetada para tarefas de compreensão de linguagem natural. Seu uso nesta tarefa especializada permite ao modelo identificar padrões e terminologias indicativas de como um projeto de lei se alinha aos direitos das mulheres.
Usos e Limitações
Uso Primário: Classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres.
Público-Alvo: Este modelo é destinado a cientistas políticos, jornalistas, profissionais do direito, defensores da igualdade de gênero e pesquisadores que analisam textos legislativos, além de sistemas automatizados que categorizam documentos jurídicos com base em considerações de equidade de gênero.
Áreas de Aplicação:
Análise legislativa Defesa da igualdade de gênero Pesquisa política e jurídica Classificação automatizada de documentos jurídicos
Dados de treinamento e avaliação
O modelo foi ajustado utilizando um conjunto de dados personalizado de propostas legislativas (PLs) do Brasil, com foco específico em temas relacionados aos direitos das mulheres. O conjunto contém tanto as ementas quanto os inteiro teor dos PLs.
Precision | Recall | F1-Score | Support | |
---|---|---|---|---|
Class 0 | 0.94 | 0.53 | 0.67 | 114 |
Class 1 | 0.35 | 0.88 | 0.50 | 33 |
Accuracy | 0.61 | 147 | ||
Macro Avg | 0.64 | 0.70 | 0.59 | 147 |
Weighted Avg | 0.81 | 0.61 | 0.64 | 147 |
Para mais informações sobre a avaliação do modelo, confira o repositório do projeto.
Hiperparâmetros de Treinamento
Os seguintes hiperparâmetros foram utilizados durante o treinamento:
learning_rate: 1e-05 train_batch_size: 64 eval_batch_size: 64 seed: 5151 optimizer: AdamW (PyTorch) com betas=(0.9, 0.999) e epsilon=1e-08 (sem argumentos adicionais para o otimizador). lr_scheduler_type: Linear lr_scheduler_warmup_steps: 150 num_epochs: 19
Resultados do Treinamento
Training Loss | Epoch | Step | Validation Loss | Accuracy | F1 | Recall | Precision |
---|---|---|---|---|---|---|---|
0.0801 | 1.0 | 18 | 0.0769 | 0.7411 | 0.4256 | 0.5 | 0.3705 |
0.0691 | 2.0 | 36 | 0.0709 | 0.75 | 0.4612 | 0.5172 | 0.8739 |
0.0647 | 3.0 | 54 | 0.0661 | 0.75 | 0.4612 | 0.5172 | 0.8739 |
0.0644 | 4.0 | 72 | 0.0648 | 0.6518 | 0.5774 | 0.5856 | 0.5753 |
0.0621 | 5.0 | 90 | 0.0632 | 0.7054 | 0.6424 | 0.6554 | 0.6367 |
0.0621 | 6.0 | 108 | 0.0627 | 0.7232 | 0.6265 | 0.6226 | 0.6319 |
0.0586 | 7.0 | 126 | 0.0595 | 0.75 | 0.6937 | 0.7079 | 0.6857 |
0.0547 | 8.0 | 144 | 0.0582 | 0.7768 | 0.7338 | 0.7597 | 0.7223 |
0.0509 | 9.0 | 162 | 0.0554 | 0.7768 | 0.7338 | 0.7597 | 0.7223 |
0.0462 | 10.0 | 180 | 0.0557 | 0.75 | 0.7091 | 0.7416 | 0.6998 |
0.0437 | 11.0 | 198 | 0.0532 | 0.7768 | 0.7382 | 0.7709 | 0.7264 |
0.0415 | 12.0 | 216 | 0.0515 | 0.7857 | 0.7466 | 0.7769 | 0.7341 |
0.0356 | 13.0 | 234 | 0.0545 | 0.8036 | 0.7547 | 0.7665 | 0.7461 |
0.0301 | 14.0 | 252 | 0.0543 | 0.8214 | 0.7770 | 0.7898 | 0.7675 |
0.0262 | 15.0 | 270 | 0.0541 | 0.8036 | 0.7594 | 0.7777 | 0.7481 |
0.0248 | 16.0 | 288 | 0.0583 | 0.8125 | 0.7584 | 0.7613 | 0.7557 |
0.0232 | 17.0 | 306 | 0.0593 | 0.8125 | 0.7635 | 0.7725 | 0.7562 |
Versões dos Frameworks
Transformers: 4.47.0 PyTorch: 2.5.1+cu121 Datasets: 3.2.0 Tokenizers: 0.21.0
Considerações Éticas
Este modelo foi projetado para classificar textos legislativos, o que pode ter implicações sociais e políticas significativas. Portanto, é essencial considerar cuidadosamente como as saídas do modelo são interpretadas e utilizadas, especialmente em contextos sensíveis.
O conjunto de dados utilizado para treinar o modelo deve ser revisado e atualizado periodicamente para garantir que reflita a linguagem legislativa atual e os padrões de entendimento e luta por igualdade de gênero.