urf-summary-labse / README.md
josedossantos's picture
Add new SentenceTransformer model.
cb5baa5 verified
metadata
language: []
library_name: sentence-transformers
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - dataset_size:10K<n<100K
  - loss:ContrastiveLoss
base_model: sentence-transformers/LaBSE
widget:
  - source_sentence: ' O projeto de lei visa disciplinar os pedidos de vista nos tribunais brasileiros, estabelecendo prazos fixos e penalidades para a demora na restituição dos autos. O objetivo é impedir abusos e garantir uma julgamento justo e técnico. A proposta mantém a prerrogativa dos juízes de requerer vista dos autos, mas com uma disciplina mais rígida.'
    sentences:
      - ' O projeto de lei nº , de 2016, apresentado pelo deputado Diego Garcia, visa estabelecer um prazo de cinco sessões para o estudo dos pedidos de vistas nos tribunais, com o objetivo de tornar mais célere o julgamento de processos. A proposta se aplicará tanto ao processo penal quanto ao processo civil. A justificativa para a proposta é a necessidade de prevenir a morosidade nos julgamentos e a sensação de impunidade na sociedade, sem olvidar a existência do duplo grau de jurisdição.'
      - ' O projeto de lei visa estabelecer isenção de pedágio para veículos automotores de duas rodas, com o objetivo de melhorar a fluidez do trânsito e reduzir o risco de acidentes. A justificativa é que esses veículos não respondem por danos ao pavimento e não contribuem para o crescimento da demanda por espaço na via. Além disso, a cobrança de pedágio é difícil para esses veículos e pode levar a acidentes. A proposta foi apresentada pelo Deputado Hercílio Coelho e está sendo discutida na Câmara dos Deputados.'
      - ' O projeto de lei nº , de 2015, proposto pela deputada Mara Gabrilli, tipifica como crime o exercício ilegal das profissões de saúde de nível superior, incluindo as relacionadas pelo Conselho Nacional de Saúde. O projeto busca responder a situações em que profissionais sem autorização exercem as profissões de saúde, colocando em risco a saúde pública. A lei prevê penas para aqueles que exercem as profissões de saúde sem autorização legal ou excederem os limites de suas atribuições.'
  - source_sentence: ' O projeto de lei visa permitir que os contribuintes deduzam das receitas tributáveis as despesas realizadas com matrículas e mensalidades de cursos de idiomas estrangeiros, com o objetivo de incentivar a educação e o desenvolvimento profissional. A proposta foi apresentada pelo deputado Fernando Coruja e está sendo discutida no Congresso Nacional.'
    sentences:
      - ' O projeto de lei permite a dedução integral das despesas com educação do contribuinte e seus dependentes, incluindo cursos de línguas estrangeiras e aquisição de material didático e pedagógico, na apuração do Imposto de Renda da pessoa física. A justificativa é que a educação é um investimento escolhido pelos contribuintes e que essas despesas não são perdas para o Tesouro Nacional, mas sim um investimento estratégico para o desenvolvimento econômico do país. A proposta busca beneficiar a educação de todos os brasileiros e aumentar a competitividade do país no mercado global.'
      - ' O projeto de lei proíbe a fiança nos contratos de locação, quando o locatário for pessoa física e instituição religiosa, e permite a cobrança antecipada de até 3 (três) de aluguéis. Além disso, o projeto modifica a Lei 8.245/91, permitindo o pagamento antecipado do aluguel e estabelecendo que o locador é obrigado a pagar impostos e taxas. A proposta é justificada por causa das dificuldades que os pretendentes à locação enfrentam para encontrar um fiador proprietário e para evitar a penhora da única residência do fiador.'
      - ' O projeto de lei proposto por Laerte Bessa, PMDB-DF, visa regulamentar a jornada de trabalho de profissionais de saúde, estabelecendo um limite de 80 horas semanais para esses profissionários. A proposta é baseada na Constituição e na necessidade de garantir a qualidade do trabalho e a dignidade dos profissionais de saúde, que atualmente enfrentam demandas exageradas e desumanas. A medida busca evitar a contratação de servidores empregados em horários extras e rotineiros, garantindo o respeito ao limite de jornada semanal.'
  - source_sentence: ' O projeto de lei visa a tornar menos oneroso o cumprimento da sentença que reconhece a exigibilidade de obrigação de pagar quantia certa, diminui o valor da multa pelo não pagamento voluntário e diminui o valor da taxa dos juros a ser aplicada, com o objetivo de um maior equilíbrio processual entre as partes.'
    sentences:
      - ' O projeto de lei visa alterar a Lei nº 9.605/98 (Lei de Crimes Ambientais) para dispor sobre o valor das multas em caso de desastre ambiental. O objetivo é flexibilizar a Lei, permitindo que o valor da multa seja aumentado em até cem vezes do teto, em caso de desastre ambiental, proporcionalmente ao nível dos danos causados à saúde humana ou ao meio ambiente. Além disso, o projeto estabelece que o infrator deve reparar os danos causados, independentemente de se optar por converter a multa em serviços de preservação e melhoria do meio ambiente.'
      - ' O projeto de lei visa regular o inciso LI, art. 5º, da Constituição Federal, que estabelece a possibilidade de extradição de brasileiros naturalizados, quando forem condenados por crimes cometidos antes da naturalização. O projeto busca preencher a lacuna existente na legislação e garantir a cooperação internacional no combate aos crimes transnacionais. Além disso, o projeto estabelece que a extradição de brasileiros naturalizados será possível apenas quando houver comprovado envolvimento do réu na prática do crime.'
      - ' O projeto de lei visa estabelecer a duração semanal de trabalho para enfermeiros técnicos, enfermagem auxiliares e enfermagem parteiras, que atualmente é regulada pela Lei nº 7.498/1986. A proposta é de fixar a jornada diária em 30 horas, com o objetivo de garantir um descanso adequado para os profissionais da saúde e evitar a fadiga e o desgaste. A proposta também busca estabelecer a duração semanal de trabalho para esses profissionais em 30 horas, com o objetivo de garantir um descanso adequado para os profissionais da saúde e evitar a fadiga e o desgaste.'
  - source_sentence: ' O projeto de lei proíbe a realização de chamadas telefônicas anônimas, obrigando a identificação do remetente e do destinatário. A justificativa é a necessidade de combater crimes e violações de direitos garantidos, que ocorrem por meio do uso inadequado da telefonia. A proibição será aplicada a partir da data de publicação da lei.'
    sentences:
      - ' O projeto de lei proíbe a realização de ligações telefônicas não identificáveis, com o objetivo de inibir a proliferação de ligações confidenciais com fins de telemarketing e cobrança, e também para reduzir os índices de criminalidade no país. O projeto mantém o dispositivo da Lei Geral de Telecomunicações que assegura ao usuário o direito à não divulgação do seu número telefônico, mas apenas em listas de assinantes. O projeto estabelece um prazo de noventa dias para que a norma proposta passe a vigorar, permitindo que as operadoras adaptem suas redes para adequação ao disposto na proposição.'
      - ' O Projeto de Lei nº 9.394/96, apresentado pela Deputada Federal Kátia Abreu em 2005, visa estabelecer diretrizes para a educação nacional e instituir o Programa Educação Cidadania (PEC). O projeto prevê a implantação do ensino médio em escolas públicas, com foco em estudos organização política administrativa e cidadania, e estabelece prazos para a implantação em diferentes estados e municípios. Além disso, o projeto busca popularizar o conhecimento da divisão política administrativa do país e da função da cidadania.'
      - ' O projeto de lei de 2008 da Deputada Solange Almeida (PMDB-RJ) dispõe desconto de 35% nas taxas de inscrição para candidatos que atendam a critérios de deficiência física, necessidades especiais e renda mensal inferior a dois salários mínimos. A lei também estabelece que os doadores de sangue possam receber um desconto de 35% nas taxas de inscrição. Além disso, a lei prevê que as informações estabelecidas no artigo 1º sejam incluídas nos editais dos concursos públicos. A lei entrará em vigor 180 dias após a publicação oficial.'
  - source_sentence: ' O projeto de lei reconhece o Carnaval do Município de Aracati-CE como manifestação da cultura nacional, destacando sua importância econômica e social. O evento é realizado em quatro arenas e atrai turistas de todo o país. A cidade de Aracati preserva suas raízes e tradições, e o projeto pode contribuir para a perpetuação da cultura do povo.'
    sentences:
      - ' O projeto de lei reconhece o Carnaval de Nova Russas como manifestação da cultura nacional e incentiva a valorização e ampliação das manifestações culturais do Brasil. A celebração é uma importante fonte de renda econômica para o município e atrai turistas de todas as regiões. A lei foi criada em 2017 e incluiu o Carnaval de Nova Russas no Calendário Turístico Cultural do Estado do Ceará. O projeto tem importante relevância cultural e social e conta com o apoio dos ilustres pares para sua aprovação.'
      - ' O projeto de lei do deputado Eliene Lima visa modificar o Decreto Lei 5.518/2005, que estabelece a admissão automática de diplomas de pós-graduação expedidos por universidades e faculdades estrangeiras para o mercado brasileiro. O projeto busca garantir a qualidade do ensino e a proteção dos jovens cidadãos, evitando a entrada de diplomas de qualidade duvidosa no mercado. Além disso, o projeto também busca preservar a soberania interna dos Estados Integrantes do Mercosul e evitar a ultrapassagem de limites legais.'
      - ' O projeto de lei visa alterar o art. 282 do Decreto Lei 2.848/40, permitindo que os técnicos tecnólogos radiologia possam exercer as profissões de médico, dentista e farmacêutico, sem a necessidade de autorização legal e ética, e aumentando os limites de responsabilidade penal para essas atividades. O projeto também busca inserir condutas previstas na legislação para evitar o exercício ilegal da profissão e minimizar os efeitos nocivos para os seres vivos e a sociedade.'
pipeline_tag: sentence-similarity

SentenceTransformer based on sentence-transformers/LaBSE

This is a sentence-transformers model finetuned from sentence-transformers/LaBSE. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: sentence-transformers/LaBSE
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("josedossantos/urf-summary-labse")
# Run inference
sentences = [
    ' O projeto de lei reconhece o Carnaval do Município de Aracati-CE como manifestação da cultura nacional, destacando sua importância econômica e social. O evento é realizado em quatro arenas e atrai turistas de todo o país. A cidade de Aracati preserva suas raízes e tradições, e o projeto pode contribuir para a perpetuação da cultura do povo.',
    ' O projeto de lei reconhece o Carnaval de Nova Russas como manifestação da cultura nacional e incentiva a valorização e ampliação das manifestações culturais do Brasil. A celebração é uma importante fonte de renda econômica para o município e atrai turistas de todas as regiões. A lei foi criada em 2017 e incluiu o Carnaval de Nova Russas no Calendário Turístico Cultural do Estado do Ceará. O projeto tem importante relevância cultural e social e conta com o apoio dos ilustres pares para sua aprovação.',
    ' O projeto de lei do deputado Eliene Lima visa modificar o Decreto Lei 5.518/2005, que estabelece a admissão automática de diplomas de pós-graduação expedidos por universidades e faculdades estrangeiras para o mercado brasileiro. O projeto busca garantir a qualidade do ensino e a proteção dos jovens cidadãos, evitando a entrada de diplomas de qualidade duvidosa no mercado. Além disso, o projeto também busca preservar a soberania interna dos Estados Integrantes do Mercosul e evitar a ultrapassagem de limites legais.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 10,962 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 label
    type string string int
    details
    • min: 46 tokens
    • mean: 138.47 tokens
    • max: 377 tokens
    • min: 55 tokens
    • mean: 136.56 tokens
    • max: 358 tokens
    • 0: ~49.70%
    • 1: ~50.30%
  • Samples:
    sentence_0 sentence_1 label
    O projeto de lei proíbe a realização de ligações telefônicas não identificáveis, com o objetivo de inibir a proliferação de ligações confidenciais com fins de telemarketing e cobrança, e também para reduzir os índices de criminalidade no país. O projeto mantém o dispositivo da Lei Geral de Telecomunicações que assegura ao usuário o direito à não divulgação do seu número telefônico, mas apenas em listas de assinantes. O projeto estabelece um prazo de noventa dias para que a norma proposta passe a vigorar, permitindo que as operadoras adaptem suas redes para adequação ao disposto na proposição. O projeto de lei visa obrigar as operadoras de telefonia fixa e celular a informarem o código de acesso do usuário chamador em ligações telefônicas, sem ônus para o usuário receptor. A medida busca reforçar a segurança pública e facilitar as investigações e a prisão de criminosos que se escondem atrás da situação anônima da chamada não identificada. O projeto foi apresentado pelo deputado federal Alberto Fraga e justifica-se com a necessidade de combater a criminalidade que utiliza as telecomunicações para perpetrar crimes. 1
    O projeto de lei nº 429/2020, apresentado pela deputada Tabata Amaral, visa permitir a ausência do empregado ao trabalho, sem prejuízo do salário, para participar de reuniões escolares de seus dependentes. A proposta busca contribuir para uma educação de qualidade no Brasil, garantindo o direito da criança, do adolescente e do jovem aos direitos fundamentais, como estabelecido na Constituição Federal de 1988. Ao permitir a ausência dos empregados para participar de reuniões escolares, a proposta busca aumentar a participação dos pais na evolução de seus filhos nas escolas, contribuindo para a prevenção de bullying e para o senso de valor e na auto-percepção da dignidade das crianças. Além disso, a proposta busca incentivar a soma dos esforços de todas as esferas para garantir os direitos fundamentais da criança, do adolescente e do jovem. O projeto de lei proposto por Ricardo Izar PSD/SP, dispõe sobre o acompanhamento pedagógico de crianças e adolescentes na escola pelos pais ou responsáveis legais. O projeto alterará três leis importantes: Estatuto da Criança e do Adolescente, Lei de Diretrizes e Bases da Educação Nacional e Consolidação das Leis do Trabalho. O objetivo é contribuir para a promoção do acompanhamento efetivo e sistemático familiar da vida escolar dos filhos, para que os pais possam participar de forma mais ativa da educação de seus filhos. A proposta tem como base a ideia de que a participação dos pais na vida escolar dos filhos é fundamental para o seu desenvolvimento e aprendizado. 1
    o projeto de lei visa estabelecer regras para as campanhas de telemarketing ativo, com foco em garantir taxa máxima de abandono de ligações, evitar insistência nas campanhas e garantir o direito do consumidor de não ser importunado novamente por determinado período. Além disso, o projeto propõe a inserção de um novo artigo no código de defesa do consumidor para controlar o uso agressivo e indiscriminado dos discadores preditivos. O projeto de lei visa criar o Sistema Nacional de Bloqueio de Telemarketing, com o objetivo de proteger os usuários dos serviços de telefonia de chamadas indesejadas. O sistema será de acesso livre e gratuito por qualquer usuário dos serviços de telecomunicações e estarão disponíveis 24 horas por dia e 7 dias por semana. As empresas que executam atividade de atendimento ativo para consumidores por meio de serviço de telecomunicações terão obrigação de disponibilizar serviços de atendimento à distância para o acesso ao Sistema Nacional de Bloqueio de Telemarketing. A falta de cumprimento da norma pode sujeitar o infrator à pena de multa. A justificação do projeto é que as atividades de telemarketing estão cada vez mais presentes no Brasil e que o abuso nesse uso vem causando grande insatisfação aos cidadãos. 0
  • Loss: ContrastiveLoss with these parameters:
    {
        "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
        "margin": 0.5,
        "size_average": true
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • num_train_epochs: 1
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • prediction_loss_only: True
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss
0.0912 500 0.0266
0.1824 1000 0.0252
0.2737 1500 0.0221
0.3649 2000 0.0205
0.4561 2500 0.0189
0.5473 3000 0.0169
0.6386 3500 0.0156
0.7298 4000 0.0132
0.8210 4500 0.0138
0.9122 5000 0.0123

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.0.0
  • Transformers: 4.39.3
  • PyTorch: 2.2.0
  • Accelerate: 0.30.1
  • Datasets: 2.14.4
  • Tokenizers: 0.15.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

ContrastiveLoss

@inproceedings{hadsell2006dimensionality,
    author={Hadsell, R. and Chopra, S. and LeCun, Y.},
    booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)}, 
    title={Dimensionality Reduction by Learning an Invariant Mapping}, 
    year={2006},
    volume={2},
    number={},
    pages={1735-1742},
    doi={10.1109/CVPR.2006.100}
}