neuralmind/bert-base-portuguese-cased

Descrição do Modelo

Este modelo é uma versão ajustada do modelo pré-treinado neuralmind/bert-base-portuguese-cased. Ele foi especificamente adaptado para classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres, com base no conteúdo de seus resumos (ementa) e texto completo (inteiro teor). O objetivo do modelo é compreender as nuances dos impactos de gênero em contextos jurídicos. O modelo utiliza a arquitetura BERT, projetada para tarefas de compreensão de linguagem natural. Seu uso nesta tarefa especializada permite ao modelo identificar padrões e terminologias indicativas de como um projeto de lei se alinha aos direitos das mulheres.

Usos e Limitações

Uso Primário: Classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres.

Público-Alvo: Este modelo é destinado a cientistas políticos, jornalistas, profissionais do direito, defensores da igualdade de gênero e pesquisadores que analisam textos legislativos, além de sistemas automatizados que categorizam documentos jurídicos com base em considerações de equidade de gênero.

Áreas de Aplicação:

Análise legislativa Defesa da igualdade de gênero Pesquisa política e jurídica Classificação automatizada de documentos jurídicos

Dados de treinamento e avaliação

O modelo foi ajustado utilizando um conjunto de dados personalizado de propostas legislativas (PLs) do Brasil, com foco específico em temas relacionados aos direitos das mulheres. O conjunto contém tanto as ementas quanto os inteiro teor dos PLs.

	Precision	Recall	F1-Score	Support
Class 0	0.94	0.53	0.67	114
Class 1	0.35	0.88	0.50	33
Accuracy			0.61	147
Macro Avg	0.64	0.70	0.59	147
Weighted Avg	0.81	0.61	0.64	147

Para mais informações sobre a avaliação do modelo, confira o repositório do projeto.

Hiperparâmetros de Treinamento

Os seguintes hiperparâmetros foram utilizados durante o treinamento:

learning_rate: 1e-05 train_batch_size: 64 eval_batch_size: 64 seed: 5151 optimizer: AdamW (PyTorch) com betas=(0.9, 0.999) e epsilon=1e-08 (sem argumentos adicionais para o otimizador). lr_scheduler_type: Linear lr_scheduler_warmup_steps: 150 num_epochs: 19

Resultados do Treinamento

Training Loss	Epoch	Step	Validation Loss	Accuracy	F1	Recall	Precision
0.0801	1.0	18	0.0769	0.7411	0.4256	0.5	0.3705
0.0691	2.0	36	0.0709	0.75	0.4612	0.5172	0.8739
0.0647	3.0	54	0.0661	0.75	0.4612	0.5172	0.8739
0.0644	4.0	72	0.0648	0.6518	0.5774	0.5856	0.5753
0.0621	5.0	90	0.0632	0.7054	0.6424	0.6554	0.6367
0.0621	6.0	108	0.0627	0.7232	0.6265	0.6226	0.6319
0.0586	7.0	126	0.0595	0.75	0.6937	0.7079	0.6857
0.0547	8.0	144	0.0582	0.7768	0.7338	0.7597	0.7223
0.0509	9.0	162	0.0554	0.7768	0.7338	0.7597	0.7223
0.0462	10.0	180	0.0557	0.75	0.7091	0.7416	0.6998
0.0437	11.0	198	0.0532	0.7768	0.7382	0.7709	0.7264
0.0415	12.0	216	0.0515	0.7857	0.7466	0.7769	0.7341
0.0356	13.0	234	0.0545	0.8036	0.7547	0.7665	0.7461
0.0301	14.0	252	0.0543	0.8214	0.7770	0.7898	0.7675
0.0262	15.0	270	0.0541	0.8036	0.7594	0.7777	0.7481
0.0248	16.0	288	0.0583	0.8125	0.7584	0.7613	0.7557
0.0232	17.0	306	0.0593	0.8125	0.7635	0.7725	0.7562

Versões dos Frameworks

Transformers: 4.47.0 PyTorch: 2.5.1+cu121 Datasets: 3.2.0 Tokenizers: 0.21.0

Considerações Éticas

Este modelo foi projetado para classificar textos legislativos, o que pode ter implicações sociais e políticas significativas. Portanto, é essencial considerar cuidadosamente como as saídas do modelo são interpretadas e utilizadas, especialmente em contextos sensíveis.

O conjunto de dados utilizado para treinar o modelo deve ser revisado e atualizado periodicamente para garantir que reflita a linguagem legislativa atual e os padrões de entendimento e luta por igualdade de gênero.

azmina
/

ia-feminista-bert-posicao