--- library_name: transformers license: mit base_model: neuralmind/bert-base-portuguese-cased tags: - generated_from_trainer metrics: - accuracy - f1 - recall - precision model-index: - name: neuralmind/bert-base-portuguese-cased results: [] --- # neuralmind/bert-base-portuguese-cased ## Descrição do Modelo Este modelo é uma versão ajustada do modelo pré-treinado neuralmind/bert-base-portuguese-cased. Ele foi especificamente adaptado para classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres, com base no conteúdo de seus resumos (ementa) e texto completo (inteiro teor). O objetivo do modelo é compreender as nuances dos impactos de gênero em contextos jurídicos. O modelo utiliza a arquitetura BERT, projetada para tarefas de compreensão de linguagem natural. Seu uso nesta tarefa especializada permite ao modelo identificar padrões e terminologias indicativas de como um projeto de lei se alinha aos direitos das mulheres. ## Usos e Limitações Uso Primário: Classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres. Público-Alvo: Este modelo é destinado a cientistas políticos, jornalistas, profissionais do direito, defensores da igualdade de gênero e pesquisadores que analisam textos legislativos, além de sistemas automatizados que categorizam documentos jurídicos com base em considerações de equidade de gênero. Áreas de Aplicação: Análise legislativa Defesa da igualdade de gênero Pesquisa política e jurídica Classificação automatizada de documentos jurídicos ## Dados de treinamento e avaliação O modelo foi ajustado utilizando um [conjunto de dados personalizado](https://huggingface.co/datasets/azmina/ementas_anotadas_inteiroteor) de propostas legislativas (PLs) do Brasil, com foco específico em temas relacionados aos direitos das mulheres. O conjunto contém tanto as ementas quanto os inteiro teor dos PLs. | | Precision | Recall | F1-Score | Support | |---------------|-----------|--------|----------|---------| | Class 0 | 0.94 | 0.53 | 0.67 | 114 | | Class 1 | 0.35 | 0.88 | 0.50 | 33 | | Accuracy | | | 0.61 | 147 | | Macro Avg | 0.64 | 0.70 | 0.59 | 147 | | Weighted Avg | 0.81 | 0.61 | 0.64 | 147 | Para mais informações sobre a avaliação do modelo, confira o [repositório do projeto](https://github.com/institutoazmina/ia-feminista-elas-no-congresso). ### Hiperparâmetros de Treinamento Os seguintes hiperparâmetros foram utilizados durante o treinamento: learning_rate: 1e-05 train_batch_size: 64 eval_batch_size: 64 seed: 5151 optimizer: AdamW (PyTorch) com betas=(0.9, 0.999) e epsilon=1e-08 (sem argumentos adicionais para o otimizador). lr_scheduler_type: Linear lr_scheduler_warmup_steps: 150 num_epochs: 19 ### Resultados do Treinamento | Training Loss | Epoch | Step | Validation Loss | Accuracy | F1 | Recall | Precision | |:-------------:|:-----:|:----:|:---------------:|:--------:|:------:|:------:|:---------:| | 0.0801 | 1.0 | 18 | 0.0769 | 0.7411 | 0.4256 | 0.5 | 0.3705 | | 0.0691 | 2.0 | 36 | 0.0709 | 0.75 | 0.4612 | 0.5172 | 0.8739 | | 0.0647 | 3.0 | 54 | 0.0661 | 0.75 | 0.4612 | 0.5172 | 0.8739 | | 0.0644 | 4.0 | 72 | 0.0648 | 0.6518 | 0.5774 | 0.5856 | 0.5753 | | 0.0621 | 5.0 | 90 | 0.0632 | 0.7054 | 0.6424 | 0.6554 | 0.6367 | | 0.0621 | 6.0 | 108 | 0.0627 | 0.7232 | 0.6265 | 0.6226 | 0.6319 | | 0.0586 | 7.0 | 126 | 0.0595 | 0.75 | 0.6937 | 0.7079 | 0.6857 | | 0.0547 | 8.0 | 144 | 0.0582 | 0.7768 | 0.7338 | 0.7597 | 0.7223 | | 0.0509 | 9.0 | 162 | 0.0554 | 0.7768 | 0.7338 | 0.7597 | 0.7223 | | 0.0462 | 10.0 | 180 | 0.0557 | 0.75 | 0.7091 | 0.7416 | 0.6998 | | 0.0437 | 11.0 | 198 | 0.0532 | 0.7768 | 0.7382 | 0.7709 | 0.7264 | | 0.0415 | 12.0 | 216 | 0.0515 | 0.7857 | 0.7466 | 0.7769 | 0.7341 | | 0.0356 | 13.0 | 234 | 0.0545 | 0.8036 | 0.7547 | 0.7665 | 0.7461 | | 0.0301 | 14.0 | 252 | 0.0543 | 0.8214 | 0.7770 | 0.7898 | 0.7675 | | 0.0262 | 15.0 | 270 | 0.0541 | 0.8036 | 0.7594 | 0.7777 | 0.7481 | | 0.0248 | 16.0 | 288 | 0.0583 | 0.8125 | 0.7584 | 0.7613 | 0.7557 | | 0.0232 | 17.0 | 306 | 0.0593 | 0.8125 | 0.7635 | 0.7725 | 0.7562 | ### Versões dos Frameworks Transformers: 4.47.0 PyTorch: 2.5.1+cu121 Datasets: 3.2.0 Tokenizers: 0.21.0 ### Considerações Éticas Este modelo foi projetado para classificar textos legislativos, o que pode ter implicações sociais e políticas significativas. Portanto, é essencial considerar cuidadosamente como as saídas do modelo são interpretadas e utilizadas, especialmente em contextos sensíveis. O conjunto de dados utilizado para treinar o modelo deve ser revisado e atualizado periodicamente para garantir que reflita a linguagem legislativa atual e os padrões de entendimento e luta por igualdade de gênero.