rufimelo
/

Legal-BERTimbau-sts-large

@@ -10,7 +10,6 @@ tags:
 datasets:
 - assin
 - assin2
 widget:
 - source_sentence: "O advogado apresentou as provas ao juíz."
   sentences:
@@ -21,37 +20,25 @@ widget:
 metrics:
   - bleu
 ---
-# rufimelo/Legal-SBERTimbau-nli-large
 This is a [sentence-transformers](https://www.SBERT.net) model: It maps sentences & paragraphs to a 1024 dimensional dense vector space and can be used for tasks like clustering or semantic search.
-Legal-SBERTimbau-large is based on Legal-BERTimbau-large which derives from [BERTimbau](https://huggingface.co/neuralmind/bert-base-portuguese-cased) Large.
-It is adapted to the Portuguese legal domain.
 ## Usage (Sentence-Transformers)
 Using this model becomes easy when you have [sentence-transformers](https://www.SBERT.net) installed:
 ```
 pip install -U sentence-transformers
 ```
 Then you can use the model like this:
 ```python
 from sentence_transformers import SentenceTransformer
 sentences = ["Isto é um exemplo", "Isto é um outro exemplo"]
-model = SentenceTransformer('rufimelo/Legal-SBERTimbau-nli-large')
 embeddings = model.encode(sentences)
 print(embeddings)
 ```
 ## Usage (HuggingFace Transformers)
 ```python
 from transformers import AutoTokenizer, AutoModel
 import torch
@@ -63,13 +50,12 @@ def mean_pooling(model_output, attention_mask):
     input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
     return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
 # Sentences we want sentence embeddings for
 sentences = ['This is an example sentence', 'Each sentence is converted']
 # Load model from HuggingFace Hub
-tokenizer = AutoTokenizer.from_pretrained('rufimelo/Legal-SBERTimbau-nli-large')
-model = AutoModel.from_pretrained('rufimelo/Legal-SBERTimbau-nli-large}')
 # Tokenize sentences
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
@@ -77,26 +63,21 @@ encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tenso
 # Compute token embeddings
 with torch.no_grad():
     model_output = model(**encoded_input)
 # Perform pooling. In this case, mean pooling.
 sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
 print("Sentence embeddings:")
 print(sentence_embeddings)
 ```
 ## Evaluation Results STS
 | Model| Dataset |  PearsonCorrelation       |
 | ---------------------------------------- | ---------- | ---------- |
-| Legal-SBERTimbau-large| Assin | 0.76629 |
-| Legal-SBERTimbau-large| Assin2| 0.82357 |
-| Legal-SBERTimbau-base| Assin | 0.71457 |
-| Legal-SBERTimbau-base| Assin2| 0.73545|
-| Legal-SBERTimbau-sts-large| Assin | 0.76299 |
-| Legal-SBERTimbau-sts-large| Assin2| 0.81121 |
-| Legal-SBERTimbau-sts-large| stsb_multi_mt pt| 0.81726 |
 | ---------------------------------------- | ---------- |---------- |
 | paraphrase-multilingual-mpnet-base-v2| Assin | 0.71457|
 | paraphrase-multilingual-mpnet-base-v2| Assin2| 0.79831 |
@@ -104,26 +85,18 @@ print(sentence_embeddings)
 | paraphrase-multilingual-mpnet-base-v2 Fine tuned with assin(s)| Assin | 0.77641  |
 | paraphrase-multilingual-mpnet-base-v2 Fine tuned with assin(s)| Assin2| 0.79831 |
 | paraphrase-multilingual-mpnet-base-v2 Fine tuned with assin(s)| stsb_multi_mt pt| 0.84575 |
 ## Training
-Legal-SBERTimbau-large is based on Legal-BERTimbau-large which derives from [BERTimbau](https://huggingface.co/neuralmind/bert-base-portuguese-cased) Large.
-It was trained for Natural Language Inference (NLI). This was chosen due to the lack of Portuguese available data.
-In addition to that, it was submitted to a fine tuning stage with the [assin](https://huggingface.co/datasets/assin) and [assin2](https://huggingface.co/datasets/assin2) datasets.
 ## Full Model Architecture
 ```
 SentenceTransformer(
-  (0): Transformer({'max_seq_length': 75, 'do_lower_case': False}) with Transformer model: BertModel
-  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False})
 )
 ```
 ## Citing & Authors
 If you use this work, please cite BERTimbau's work:
 ```bibtex
 @inproceedings{souza2020bertimbau,
   author    = {F{\'a}bio Souza and

 datasets:
 - assin
 - assin2
 widget:
 - source_sentence: "O advogado apresentou as provas ao juíz."
   sentences:
 metrics:
   - bleu
 ---
+# rufimelo/Legal-SBERTimbau-sts-large
 This is a [sentence-transformers](https://www.SBERT.net) model: It maps sentences & paragraphs to a 1024 dimensional dense vector space and can be used for tasks like clustering or semantic search.
+rufimelo/Legal-SBERTimbau-sts-large is based on Legal-BERTimbau-large which derives from [BERTimbau](https://huggingface.co/neuralmind/bert-large-portuguese-cased) alrge.
+It is adapted to the Portuguese legal domain and trained for STS on portuguese datasets.
 ## Usage (Sentence-Transformers)
 Using this model becomes easy when you have [sentence-transformers](https://www.SBERT.net) installed:
 ```
 pip install -U sentence-transformers
 ```
 Then you can use the model like this:
 ```python
 from sentence_transformers import SentenceTransformer
 sentences = ["Isto é um exemplo", "Isto é um outro exemplo"]
+model = SentenceTransformer('rufimelo/Legal-SBERTimbau-sts-large')
 embeddings = model.encode(sentences)
 print(embeddings)
 ```
 ## Usage (HuggingFace Transformers)
 ```python
 from transformers import AutoTokenizer, AutoModel
 import torch
     input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
     return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
 # Sentences we want sentence embeddings for
 sentences = ['This is an example sentence', 'Each sentence is converted']
 # Load model from HuggingFace Hub
+tokenizer = AutoTokenizer.from_pretrained('rufimelo/Legal-SBERTimbau-sts-large')
+model = AutoModel.from_pretrained('rufimelo/Legal-SBERTimbau-sts-large')
 # Tokenize sentences
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
 # Compute token embeddings
 with torch.no_grad():
     model_output = model(**encoded_input)
 # Perform pooling. In this case, mean pooling.
 sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
 print("Sentence embeddings:")
 print(sentence_embeddings)
 ```
 ## Evaluation Results STS
 | Model| Dataset |  PearsonCorrelation       |
 | ---------------------------------------- | ---------- | ---------- |
+| Legal-SBERTimbau-sts-large| Assin | 0.76629 |
+| Legal-SBERTimbau-sts-large| Assin2| 0.82357 |
+| Legal-SBERTimbau-sts-base| Assin | 0.71457 |
+| Legal-SBERTimbau-sts-base| Assin2| 0.73545|
+| Legal-SBERTimbau-sts-large-v2| Assin | 0.76299 |
+| Legal-SBERTimbau-sts-large-v2| Assin2| 0.81121 |
+| Legal-SBERTimbau-sts-large-v2| stsb_multi_mt pt| 0.81726 |
 | ---------------------------------------- | ---------- |---------- |
 | paraphrase-multilingual-mpnet-base-v2| Assin | 0.71457|
 | paraphrase-multilingual-mpnet-base-v2| Assin2| 0.79831 |
 | paraphrase-multilingual-mpnet-base-v2 Fine tuned with assin(s)| Assin | 0.77641  |
 | paraphrase-multilingual-mpnet-base-v2 Fine tuned with assin(s)| Assin2| 0.79831 |
 | paraphrase-multilingual-mpnet-base-v2 Fine tuned with assin(s)| stsb_multi_mt pt| 0.84575 |
 ## Training
+rufimelo/Legal-SBERTimbau-sts-large is based on Legal-BERTimbau-largewhich derives from [BERTimbau](https://huggingface.co/neuralmind/bert-base-portuguese-cased) large.
+It was trained for Semantic Textual Similarity, being submitted to a fine tuning stage with the [assin](https://huggingface.co/datasets/assin) and [assin2](https://huggingface.co/datasets/assin2) datasets.
 ## Full Model Architecture
 ```
 SentenceTransformer(
+  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
+  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False})
 )
 ```
 ## Citing & Authors
 If you use this work, please cite BERTimbau's work:
 ```bibtex
 @inproceedings{souza2020bertimbau,
   author    = {F{\'a}bio Souza and