sylvain471's picture
Add new SentenceTransformer model.
ac22adf verified
metadata
base_model: dangvantuan/sentence-camembert-base
datasets: []
language:
  - en
library_name: sentence-transformers
license: apache-2.0
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:4842
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence: >-
      Qui a souhaité conserver la gestion de la base de données des facteurs
      d’émissions ?
    sentences:
      - >-
        L’enquête TCU 2017 permet de connaitre le nombre de voyageurs sur chacun
        des modes: autobus, tramways et métro, la consommation réelle
        définissant des émissions GES propres à chacun de ces modes de
        transport. L’enquête sur le parc des services urbains de 2018, quant à
        elle, permet de connaître finement les caractéristiques des véhicules de
        139 réseaux urbains. Les données proposées intègrent les émissions liées
        à la consommation de carburant (amont + combustion). Ne sont pas
        incluses les émissions liées à la fabrication des véhicules ou à
        l’infrastructure routière.
      - >-
        Dans le cadre de ce transfert, l’ADEME a souhaité conserver la gestion
        de la base de données des facteurs d’émissions: la Base Carbone <unk>.
        Cette base a pour objectif d’alimenter en données un maximum de
        calculateurs carbone dont l’outil Bilan Carbone <unk>. Scope 2 :
        émissions indirectes - énergie Les émissions indirectes liées à
        l’énergie, correspondent à la consommation d'une énergie finale dont les
        émissions ne sont pas émises sur le lieu de consommation, mais de
        production. Concrètement, il s'agit de l'électricité et des réseaux de
        chaleur / froid. Dans le cadre d'un exercice de bilan GES, on parle
        usuellement de scope 2. Fossiles Le terme "combustibles fossiles"
        désigne tous les produits bruts ou dérivés issus du pétrole, du gaz
        naturel et du charbon.
      - >-
        Périmètre FE valides génériques FE recyclage - impact : ces FE prennent
        en compte les étapes allant de la collecte des déchets jusqu'à la sortie
        du recyclage, à savoir : <unk>collecte sélective dont bacs/conteneurs,
        collecte et transfert<unk>tri en centre de tri (préparateur de calcin
        pour le verre)<unk>transport entre le centre de tri et les sites de
        recyclage/régénération<unk>recyclage/régénération FE recyclage -
        émissions évitées : les émissions évitées correspondent à la production
        de matière vierge considérée comme évitée du fait de la production d'un
        matériau recyclé. Les taux de substitution entre matière recyclée et
        matière vierge/primaire sont de 1 pour 1, à l'exception du carton pour
        lequel un taux de substitution de 0,85 de matière vierge pour 1 de
        matière recyclée a été considéré.
  - source_sentence: >-
      Quels sont les facteurs d'émissions traités comme les émissions de gaz à
      effet de serre ?
    sentences:
      - >-
        En effet, en l'absence de replantation (ou de régénération naturelle),
        le fait de couper un arbre pour le transformer en charpente ne fait que
        déplacer un stock existant, mais n'en reconstitue aucun. En ce qui
        concerne les bois exotiques, qui proviennent de forêts qui ne sont
        généralement pas bien gérées, et où les coupes ne sont pas compensées
        par des plantations (puisque la surface diminue), on ne peut donc pas
        parler de puits de carbone. En fait il est même probable que
        l'exploitation d'une tonne de bois exotique conduise à des émissions
        nettes significatives : pour pouvoir exploiter les quelques espèces
        commercialement intéressantes (pas plus de quelques exemplaires à
        l'hectare), les forestiers construisent des pistes qui, par la suite,
        servent à des paysans pour aller défricher le reste de la forêt, ce qui
        cause des émissions significatives de CO2.
      - Ils sont traités comme ces dernières.
      - >-
        En fait les véritables constituants primaires rentrent dans 3 catégories
        : *des granulats, c'est-à-dire des constituants provenant de carrières
        et plus ou moins finement concassés, *du liant, qui est l'équivalent
        routier du ciment, *enfin du métal, pour faire des glissières ou des
        équivalents routiers du béton armé. Ces composants sont alors mélangés
        en parts variables et fournissent des "produits" qui sont directement
        utilisés lors de la construction, et qui portent des noms usuels pour
        les sociétés de travaux routiers. Seuls sont mentionnés ci-dessous les
        produits dont les équivalents CO2 ne sont pas abordés au [chapitre
        métaux](metaux_et_produits_metalliques.htm) (donc notamment pas
        l'acier). Il s'agit pour l'essentiel de constituants propres à la
        construction de voies routières. La publication discrimine les émissions
        des phases de fabrication, de transport et de mise en œuvre. Le cas
        échéant, il sera donc possible de "réduire" les facteurs d'émission si
        l'une de ces phases est absente du cas considéré.
  - source_sentence: >-
      Quel est le pourcentage des indésirables (morceaux de tissus ou plastique)
      dans la famille des DEA bois collectés en 2017 ?
    sentences:
      - >-
        Il faut alors recourir à une valeur moyenne, représentant les émissions
        moyennes liées à la production d'une tonne de plastique. Il s'agit, en
        quelque sorte, d'une valeur tenant compte des tonnages respectifs des
        différentes qualités de plastique et des facteurs d'émission par
        plastique. Le mémento des décideurs de la MIES12 donne une valeur
        moyenne pour le plastique de 2 350 kg équivalent CO2 par tonne. Ce
        montant étant cohérent avec les valeurs obtenues ci-dessus pour les
        plastiques les plus courants, nous la retiendrons, faute de mieux,
        lorsque le type de plastique n’est pas connu. Pour le plastique 100%
        ex-recyclé nous prendrons la valeur de 202 kgCO2e par tonne par défaut,
        en faisant l’hypothèse que le mode largement dominant de recyclage est
        mécanique. reference Sources : 1. US Environment Protection Agency /
        1998 / Greenhouse Gas Emissions From Management of Selected Materials in
        Municipal Waste. 2.
      - >-
        On les trouve généralement dans les résidus urbains solides (parfois
        appelées ordures ménagères biodégradables) comme : *les déchets végétaux
        *les déchets de cuisine allant dans les ordures ménagères *les déchets
        de papiers et cartons *les plastiques et autres contenants ou emballages
        biodégradables. Cette décomposition a notamment lieu dans des centres de
        stockage. Elle génère des émissions de GES en suivant le principe du
        schéma représenté ci-dessus.
      - >-
        Description du facteur d’émissions Composition et représentativité du
        gisement de déchets Le graphique ci-dessous représente la composition du
        gisement collecté et modélisé pour les facteurs DEA moyen: DEA_Collecté
        Figure : Composition représentative des DEA collectés en 2017
        Composition des DEA Bois collectés en 2017 La famille des DEA bois est
        composée de 32% de bois massif, 7% d’indésirables (morceaux de tissus ou
        plastique), les 61% restant pouvant être considérés comme du panneau de
        particules ou assimilé. Les panneaux de particules sont principalement
        composés de particules de bois (jusqu’à 93 %) et de colles à base de
        formaldéhyde (entre 7 % et 12 %). Des matériaux supplémentaires peuvent
        également faire partie des flux entrant (éléments de quincaillerie,
        vernis, revêtements etc.) mais ils sont considérés comme négligeables.
        Ces informations sont issues d’une étude d’Eco-mobilier réalisée à
        l’échelle nationale.
  - source_sentence: >-
      Où est stockée la partie résiduelle des déchets d'emballages qui n'est pas
      recyclée ni valorisée énergétiquement?
    sentences:
      - >-
        66,7% moyenne 4106C ECO CHALEUR DE BLOIS Blois 0,014 0,020 94,3% moyenne
        4202C Quartier la Cotonne Saint-Etienne 0,207 0,247 0,0% 2020 4203C
        Quartier de La Métare Saint-Etienne 0,194 0,230 0,0% 2020 4204C HLM
        Beaulieu Montchovet IV Saint-Etienne 0,286 0,296 0,0% 2020 4206C Réseau
        de Firminy Firminy 0,109 0,141 49,2% moyenne 4207C Roanne énergies
        Roanne 0,054 0,077 78,8% moyenne 4208C Quartier Parc des Sports Roanne
        0,225 0,253 0,0% 2020 4210C Quartier Montreynaud SAINT-ETIENNE 0,082
        0,105 66,8% moyenne 4211C Andrézieux-Bouthéon Andrezieux-Boutheon 0,083
        0,109 67,2% 2020 4212C Montrond-les-Bains Montrond-les-Bains 0,064 0,090
        78,2% moyenne 4213C Réseau de Chaleur VIACONFORT SAINT-ETIENNE 0,049
        0,101 80,5% 2020 4213F Réseaux de Froid VIACONFORT Saint-Etienne 0,013
        0,026 0,0% 2020 4214C Scevia quartier de fonsala
      - et al.
      - >-
        Ils sont considérés comme représentatifs jusqu'en 2022. Les différents
        facteurs d’émissions proposés dans cette catégorie ont été établis avec
        des données datant de 2015, et sont considérés comme représentatifs
        jusqu'en 2022. Représentativité géographique FE valides génériques FE
        valides spécifiques sur le recyclage des plastiques Les FE proposés sont
        considérés comme représentatifs de la gestion des déchets d'emballages
        ménagers produits en France. Le recyclage des déchets d'emballages
        ménagers produits en France est majoritairement opéré en France mais une
        partie peut avoir lieu dans d'autres pays européens limitrophes de la
        France. L'incinération avec valorisation des déchets d'emballages
        ménagers est opérée en France. La partie résiduelle des déchets
        d'emballages qui n'est pas recyclée ni valorisée énergétiquement est
        stockée dans des installations en France.
  - source_sentence: >-
      Quel est le site web de l'expérimentation pour plus d'informations sur les
      niveaux de performance et le label ?
    sentences:
      - >-
        Le recalcul en tonne.km a été réalisé à partir des hypothèses suivantes:
        Type Capacité Distance Unité BC Masse type (en kg) Allocation fret (si
        pertinent) Tonnage total (en tonnes) Durée de vie en km Par capacité
        d'avion Capacité 20 - 50 sièges <unk>500 kms /t.km 11 705,6 0,03 0,0986
        30 000 000 Par capacité d'avion Capacité 20 - 50 sièges 500-1000kms
        /t.km 11 700,5 0,03 0,0985 30 000 000 Par capacité d'avion Capacité 20 -
        50 sièges 1000-3500kms /t.km 11 700,5 0,04 0,1266 30 000 000 Par
        capacité d'avion Capacité 51-100 sièges <unk>500 kms /t.km 13 070,9 0,03
        0,1218 30 000 000 Par capacité d'avion Capacité 51-100 sièges
        500-1000kms /t.km 13 069,3 0,03 0,1218 30 000 000 Par capacité d'avion
        Capacité 51-100 sièges 1000-3500kms /t.km 13 069,3 0,03 0,1566 30 000
        000 Par capacité d'avion Capacité 101-220 sièges <unk>500 kms /t.km 40
        056,0 0,03 0,3408 40 000 000.
      - >-
        Les facteurs d’émissions associés ne sont à utiliser que dans ce cadre
        très précis. Plus d’informations sur le [site de
        l’expérimentation](http://www.batiment-energiecarbone.fr/niveaux-de-performance-et-label/documentation/)[.](new_liquides.htm)
        Sources : [[101] Arrêté du 31 octobre 2012 relatif à la vérification et
        à la quantification des émissions déclarées dans le cadre du système
        d'échange de quotas d'émission de gaz à effet de serre pour sa troisième
        période (2013-2020)](references.htm) [[102] Rapport OMINEA 2011,
        CITEPA](references.htm) [[103] Décision 2007/589/CE définissant des
        lignes directrices pour la surveillance et la déclaration des émissions
        de gaz à effet de serre, conformément à la directive 2003/87/CE du
        Parlement européen et du Conseil](references.htm) [[110] Wikipédia -
        raffinage du pétrole](references.htm) [[111] Guide méthodologique
        d'application de l'application de l'article L.
      - >-
        Ces valeurs sont bien entendu plus précises que les valeurs ci-dessous
        et s'y substitue donc. Part CH4 En pratique, il faut une durée de séjour
        minimum en conditions anaérobies et une concentration minimum des eaux
        usées en matières organiques, pour que les émissions soient
        significatives, ce qui suit ne concerne pas: *les eaux rejetées dans un
        milieu non stagnant (eaux en mouvement de rivière ou de fleuve, par
        exemple), où les conditions anaérobies ne sont pas réunies, *les eaux
        rejetées dans un réseau qui aboutit à une station d’épuration, car le
        maintien en conditions anaérobies de la matière organique en suspension
        (qui ne dure que le temps d’arriver à la station) est bien trop court
        pour que des émissions significatives aient lieu. Seules les eaux en
        sortie de station, et rejetées dans un milieu stagnant, sont
        éventuellement à prendre en compte.
model-index:
  - name: gte multi base BEGES Matryoshka
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 768
          type: dim_768
        metrics:
          - type: cosine_accuracy@1
            value: 0.12244897959183673
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.2857142857142857
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.3784786641929499
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.49536178107606677
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.12244897959183673
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.09523809523809523
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.07569573283858998
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.04953617810760668
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.12244897959183673
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.2857142857142857
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.3784786641929499
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.49536178107606677
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.2931071876915551
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.23014621432988777
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.2413962095024068
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 512
          type: dim_512
        metrics:
          - type: cosine_accuracy@1
            value: 0.11688311688311688
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.300556586270872
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.3784786641929499
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.47866419294990725
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.11688311688311688
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.10018552875695733
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.07569573283858998
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.04786641929499073
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.11688311688311688
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.300556586270872
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.3784786641929499
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.47866419294990725
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.2869476449220236
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.22664325470447919
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.2387784414658013
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 256
          type: dim_256
        metrics:
          - type: cosine_accuracy@1
            value: 0.10204081632653061
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.2653061224489796
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.3673469387755102
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.4749536178107607
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.10204081632653061
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.08843537414965986
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.07346938775510203
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.04749536178107607
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.10204081632653061
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.2653061224489796
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.3673469387755102
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.4749536178107607
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.2739365043133011
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.21145566451688907
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.22341831930709694
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 128
          type: dim_128
        metrics:
          - type: cosine_accuracy@1
            value: 0.10760667903525047
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.24118738404452691
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.3302411873840445
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.4712430426716141
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.10760667903525047
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.08039579468150895
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.06604823747680891
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.04712430426716141
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.10760667903525047
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.24118738404452691
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.3302411873840445
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.4712430426716141
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.2675135047982248
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.20498645345584124
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.21574898062556175
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 64
          type: dim_64
        metrics:
          - type: cosine_accuracy@1
            value: 0.09647495361781076
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.22448979591836735
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.32653061224489793
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.44341372912801486
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.09647495361781076
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.0748299319727891
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.0653061224489796
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.044341372912801484
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.09647495361781076
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.22448979591836735
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.32653061224489793
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.44341372912801486
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.2486249166329699
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.18849500839296746
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.2001634322993637
            name: Cosine Map@100

gte multi base BEGES Matryoshka

This is a sentence-transformers model finetuned from dangvantuan/sentence-camembert-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: dangvantuan/sentence-camembert-base
  • Maximum Sequence Length: 128 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity
  • Language: en
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: CamembertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sylvain471/sentence-camembert-base-ademe")
# Run inference
sentences = [
    "Quel est le site web de l'expérimentation pour plus d'informations sur les niveaux de performance et le label ?",
    "Les facteurs d’émissions associés ne sont à utiliser que dans ce cadre très précis. Plus d’informations sur le [site de l’expérimentation](http://www.batiment-energiecarbone.fr/niveaux-de-performance-et-label/documentation/)[.](new_liquides.htm) Sources : [[101] Arrêté du 31 octobre 2012 relatif à la vérification et à la quantification des émissions déclarées dans le cadre du système d'échange de quotas d'émission de gaz à effet de serre pour sa troisième période (2013-2020)](references.htm) [[102] Rapport OMINEA 2011, CITEPA](references.htm) [[103] Décision 2007/589/CE définissant des lignes directrices pour la surveillance et la déclaration des émissions de gaz à effet de serre, conformément à la directive 2003/87/CE du Parlement européen et du Conseil](references.htm) [[110] Wikipédia - raffinage du pétrole](references.htm) [[111] Guide méthodologique d'application de l'application de l'article L.",
    "Ces valeurs sont bien entendu plus précises que les valeurs ci-dessous et s'y substitue donc. Part CH4 En pratique, il faut une durée de séjour minimum en conditions anaérobies et une concentration minimum des eaux usées en matières organiques, pour que les émissions soient significatives, ce qui suit ne concerne pas: *les eaux rejetées dans un milieu non stagnant (eaux en mouvement de rivière ou de fleuve, par exemple), où les conditions anaérobies ne sont pas réunies, *les eaux rejetées dans un réseau qui aboutit à une station d’épuration, car le maintien en conditions anaérobies de la matière organique en suspension (qui ne dure que le temps d’arriver à la station) est bien trop court pour que des émissions significatives aient lieu. Seules les eaux en sortie de station, et rejetées dans un milieu stagnant, sont éventuellement à prendre en compte.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.1224
cosine_accuracy@3 0.2857
cosine_accuracy@5 0.3785
cosine_accuracy@10 0.4954
cosine_precision@1 0.1224
cosine_precision@3 0.0952
cosine_precision@5 0.0757
cosine_precision@10 0.0495
cosine_recall@1 0.1224
cosine_recall@3 0.2857
cosine_recall@5 0.3785
cosine_recall@10 0.4954
cosine_ndcg@10 0.2931
cosine_mrr@10 0.2301
cosine_map@100 0.2414

Information Retrieval

Metric Value
cosine_accuracy@1 0.1169
cosine_accuracy@3 0.3006
cosine_accuracy@5 0.3785
cosine_accuracy@10 0.4787
cosine_precision@1 0.1169
cosine_precision@3 0.1002
cosine_precision@5 0.0757
cosine_precision@10 0.0479
cosine_recall@1 0.1169
cosine_recall@3 0.3006
cosine_recall@5 0.3785
cosine_recall@10 0.4787
cosine_ndcg@10 0.2869
cosine_mrr@10 0.2266
cosine_map@100 0.2388

Information Retrieval

Metric Value
cosine_accuracy@1 0.102
cosine_accuracy@3 0.2653
cosine_accuracy@5 0.3673
cosine_accuracy@10 0.475
cosine_precision@1 0.102
cosine_precision@3 0.0884
cosine_precision@5 0.0735
cosine_precision@10 0.0475
cosine_recall@1 0.102
cosine_recall@3 0.2653
cosine_recall@5 0.3673
cosine_recall@10 0.475
cosine_ndcg@10 0.2739
cosine_mrr@10 0.2115
cosine_map@100 0.2234

Information Retrieval

Metric Value
cosine_accuracy@1 0.1076
cosine_accuracy@3 0.2412
cosine_accuracy@5 0.3302
cosine_accuracy@10 0.4712
cosine_precision@1 0.1076
cosine_precision@3 0.0804
cosine_precision@5 0.066
cosine_precision@10 0.0471
cosine_recall@1 0.1076
cosine_recall@3 0.2412
cosine_recall@5 0.3302
cosine_recall@10 0.4712
cosine_ndcg@10 0.2675
cosine_mrr@10 0.205
cosine_map@100 0.2157

Information Retrieval

Metric Value
cosine_accuracy@1 0.0965
cosine_accuracy@3 0.2245
cosine_accuracy@5 0.3265
cosine_accuracy@10 0.4434
cosine_precision@1 0.0965
cosine_precision@3 0.0748
cosine_precision@5 0.0653
cosine_precision@10 0.0443
cosine_recall@1 0.0965
cosine_recall@3 0.2245
cosine_recall@5 0.3265
cosine_recall@10 0.4434
cosine_ndcg@10 0.2486
cosine_mrr@10 0.1885
cosine_map@100 0.2002

Training Details

Training Dataset

Unnamed Dataset

  • Size: 4,842 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 8 tokens
    • mean: 21.72 tokens
    • max: 105 tokens
    • min: 5 tokens
    • mean: 123.1 tokens
    • max: 128 tokens
  • Samples:
    positive anchor
    Quelles sont les deux phases de cycle de vie pour les articles d'habillement qui contribuent le plus aux émissions ? Les conclusions de l’étude, montrent que, sur l’ensemble du cycle de vie: * Pour les articles d’habillement, les deux phases de cycle de vie les plus contributrices sont la phase de production des matières premières (variation entre 8% pour le pull en coton recyclé et 72%pour l’anorak; 35% en moyenne) et l’étape de mise en forme (variation entre 15 et 51%; 36% en moyenne). Remarque: la phase d’utilisation est évaluée en attribuant 100% des impacts des consommables à l’article d’habillement. Ainsi le scénario de référence est: aucun lavage (pour couvrir aussi bien le lavage machine que le nettoyage à sec), aucun séchage (étape non obligatoire) et aucun repassage (étape non obligatoire). De manière générale, les procédés contributeurs pour les articles d’habillement sont: •La production de la matière première textile•L'électricité consommée pendant la mise en forme. La contribution est fonction des pays de production.
    Quels sont les types de navires qui ne sont pas représentés par l'ensemble des données disponibles pour la Base Carbone ? * Poste "Fabrication de véhicule" Peu de ressources bibliographiques sont disponibles et la représentativité technique des données identifiées n’est pas suffisante pour permettre une intégration d’un poste «Fabrication» dans les facteurs d’émissions existants. En effet, seules deux sources hors base de donnée ecoinvent ont permis d’évaluer grossièrement (ie. à l’aide d’hypothèses) l’impact de la fabrication d’un pétrolier et d’un vraquier. seules des analyses de cycle de vie de ferry parcourant un nombre restreint de km ont été identifiées. Aucune de ces données n’est pertinente pour évaluer le transport de marchandises. Seules des données ecoinvent correspondent techniquement aux navires recherchés pour la Base Carbone. Cet échantillon de données n’est pas satisfaisant car les sources ne sont pas suffisamment diversifiées et l’ensemble des navires types de la Base Carbone ne sont pas représentés.
    Quel était le pourcentage d'abattement des émissions de gaz à effet de serre observé pour la commune de Belle Neuve ? Sornac 0,106 0,145 74,1% 2020 1904C Réseau de Servières le Château SERVIERES-LE-CHATEAU 0,000 0,028 100,0% 2020 1906C BORG WARNER EYREIN 0,271 0,305 0,0% 2020 1907C Réseau de Brive BRIVE-LA-GAILLARDE 0,098 0,114 67,6% 2020 2001C Réseau de Corte CORTE 0,257 0,265 33,3% moyenne 2102C Réseau du Grand Dijon Ouest Dijon 0,098 0,131 52,7% moyenne 2105C Les Gresilles Dijon 0,088 0,122 51,4% moyenne 2106C Dijon énergies DIJON 0,055 0,077 74,6% 2020 2107C Mairie BELLENEUVE 0,109 0,150 77,2% moyenne 2108C Réseau de la commune de Nuits Saint Georges NUITS-SAINT-GEORGES 0,113 0,146 74,1% moyenne 2202C RESEAU DE CHALEUR CHAUFFERIE 1 PLOUARET 0,000 0,103 100,0% 2020 2203C RESEAU DE CHALEUR CHAUFFERIE 2 PLOUARET 0,000 0,089 100,0% 2020 2204C SMITRED OUEST d'ARMOR PLUZUNET 0,000 0,004 100,0% 2020 2205C
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 16
  • gradient_accumulation_steps: 16
  • learning_rate: 2e-05
  • num_train_epochs: 20
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • bf16: True
  • tf32: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 16
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 20
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: True
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_128_cosine_map@100 dim_256_cosine_map@100 dim_512_cosine_map@100 dim_64_cosine_map@100 dim_768_cosine_map@100
0.9474 9 - 0.1043 0.1451 0.1301 0.0804 0.1353
1.0526 10 10.439 - - - - -
2.0 19 - 0.1313 0.1614 0.1639 0.1034 0.1752
2.1053 20 7.6184 - - - - -
2.9474 28 - 0.1464 0.1725 0.1818 0.1102 0.1812
3.1579 30 5.8477 - - - - -
4.0 38 - 0.1649 0.1915 0.1977 0.1327 0.2031
4.2105 40 4.7386 - - - - -
4.9474 47 - 0.1783 0.2023 0.2104 0.1546 0.2160
5.2632 50 4.011 - - - - -
6.0 57 - 0.1875 0.2092 0.2152 0.1625 0.2205
6.3158 60 3.3806 - - - - -
6.9474 66 - 0.1950 0.2133 0.2193 0.1639 0.2236
7.3684 70 2.9599 - - - - -
8.0 76 - 0.1969 0.2156 0.2272 0.1710 0.2288
8.4211 80 2.5981 - - - - -
8.9474 85 - 0.2020 0.2172 0.2280 0.1770 0.2288
9.4737 90 2.2513 - - - - -
10.0 95 - 0.2051 0.2235 0.2309 0.1809 0.2293
10.5263 100 2.01 - - - - -
10.9474 104 - 0.2043 0.2253 0.2323 0.1847 0.2321
11.5789 110 1.8012 - - - - -
12.0 114 - 0.2019 0.2212 0.2327 0.1873 0.2315
12.6316 120 1.6787 - - - - -
12.9474 123 - 0.2032 0.2217 0.2321 0.1886 0.2331
13.6842 130 1.6183 - - - - -
14.0 133 - 0.2055 0.2230 0.2330 0.1901 0.2364
14.7368 140 1.5298 - - - - -
14.9474 142 - 0.2059 0.2246 0.2349 0.1909 0.2371
15.7895 150 1.4565 - - - - -
16.0 152 - 0.2081 0.2250 0.2362 0.1899 0.2371
16.8421 160 1.4486 - - - - -
16.9474 161 - 0.2081 0.2241 0.2343 0.1885 0.2348
17.8947 170 1.4163 - - - - -
18.0 171 - 0.2072 0.2250 0.2333 0.1906 0.2363
18.9474 180 1.4396 0.2081 0.2241 0.2343 0.1885 0.2348
0.9474 9 - 0.2077 0.2272 0.2335 0.1906 0.2388
1.0526 10 1.4076 - - - - -
2.0 19 - 0.2108 0.2281 0.2376 0.1878 0.2383
2.1053 20 1.3222 - - - - -
2.9474 28 - 0.2110 0.2297 0.2366 0.1955 0.2381
3.1579 30 1.0961 - - - - -
4.0 38 - 0.2122 0.2285 0.2425 0.1948 0.2416
4.2105 40 0.9421 - - - - -
4.9474 47 - 0.2139 0.2296 0.2401 0.2015 0.2391
5.2632 50 0.7959 - - - - -
6.0 57 - 0.2135 0.2296 0.2380 0.1997 0.2405
6.3158 60 0.6813 - - - - -
6.9474 66 - 0.2163 0.2277 0.2384 0.1967 0.2424
7.3684 70 0.5678 - - - - -
8.0 76 - 0.2172 0.2324 0.2400 0.1989 0.2412
8.4211 80 0.5139 - - - - -
8.9474 85 - 0.2163 0.2260 0.2399 0.1968 0.2419
9.4737 90 0.4495 - - - - -
10.0 95 - 0.2144 0.2234 0.2390 0.1985 0.2380
10.5263 100 0.4038 - - - - -
10.9474 104 - 0.2159 0.2270 0.2394 0.1992 0.2390
11.5789 110 0.3735 - - - - -
12.0 114 - 0.2124 0.2245 0.2394 0.1986 0.2410
12.6316 120 0.3537 - - - - -
12.9474 123 - 0.2116 0.2236 0.2378 0.1978 0.2372
13.6842 130 0.3417 - - - - -
14.0 133 - 0.2115 0.2207 0.2390 0.1999 0.2369
14.7368 140 0.3236 - - - - -
14.9474 142 - 0.2102 0.2228 0.2391 0.2011 0.2363
15.7895 150 0.3081 - - - - -
16.0 152 - 0.2095 0.2227 0.2388 0.2010 0.2379
16.8421 160 0.304 - - - - -
16.9474 161 - 0.2115 0.2218 0.2398 0.1997 0.2371
17.8947 170 0.3096 - - - - -
18.0 171 - 0.2104 0.2226 0.2386 0.1992 0.2368
18.9474 180 0.3182 0.2172 0.2324 0.2400 0.1989 0.2412
0.9474 9 - 0.2156 0.232 0.2382 0.2004 0.2433
1.0526 10 0.4808 - - - - -
2.0 19 - 0.2150 0.2259 0.2368 0.2011 0.2426
2.1053 20 0.4524 - - - - -
2.9474 28 - 0.2158 0.2277 0.2422 0.2029 0.2390
3.1579 30 0.4079 - - - - -
4.0 38 - 0.2150 0.2280 0.2420 0.2025 0.2391
4.2105 40 0.3377 - - - - -
4.9474 47 - 0.2158 0.2284 0.2405 0.2030 0.2378
5.2632 50 0.3138 - - - - -
6.0 57 - 0.2156 0.2268 0.2374 0.2006 0.2389
6.3158 60 0.2666 - - - - -
6.9474 66 - 0.2128 0.2227 0.2380 0.2003 0.2369
7.3684 70 0.2385 - - - - -
8.0 76 - 0.2134 0.2215 0.2387 0.1978 0.2374
8.4211 80 0.2161 - - - - -
8.9474 85 - 0.2101 0.2188 0.2367 0.1990 0.2372
9.4737 90 0.1948 - - - - -
10.0 95 - 0.2080 0.2174 0.2355 0.1963 0.2367
10.5263 100 0.1829 - - - - -
10.9474 104 - 0.2055 0.2188 0.2344 0.1973 0.2358
11.5789 110 0.1599 - - - - -
12.0 114 - 0.2096 0.2193 0.2326 0.1974 0.2315
12.6316 120 0.1592 - - - - -
12.9474 123 - 0.2067 0.2170 0.2330 0.1945 0.2335
13.6842 130 0.1522 - - - - -
14.0 133 - 0.2072 0.2145 0.2292 0.1970 0.2351
14.7368 140 0.1475 - - - - -
14.9474 142 - 0.2076 0.2157 0.2289 0.1987 0.2351
15.7895 150 0.1372 - - - - -
16.0 152 - 0.2074 0.2164 0.2300 0.1985 0.2358
16.8421 160 0.139 - - - - -
16.9474 161 - 0.2064 0.2166 0.2304 0.1981 0.2347
17.8947 170 0.1374 - - - - -
18.0 171 - 0.2071 0.2167 0.2305 0.1973 0.2335
18.9474 180 0.1428 0.2065 0.2157 0.2305 0.1964 0.2332
0.9474 9 - 0.216 0.2307 0.2414 0.1998 0.2446
1.0526 10 0.472 - - - - -
2.0 19 - 0.2157 0.2279 0.2390 0.2038 0.2437
2.1053 20 0.4299 - - - - -
2.9474 28 - 0.2143 0.2290 0.2444 0.2001 0.2454
3.1579 30 0.3927 - - - - -
4.0 38 - 0.2170 0.2193 0.2385 0.1981 0.2399
4.2105 40 0.3396 - - - - -
4.9474 47 - 0.2131 0.2283 0.2383 0.1987 0.2421
5.2632 50 0.2937 - - - - -
6.0 57 - 0.2166 0.2254 0.2410 0.2018 0.2409
6.3158 60 0.2707 - - - - -
6.9474 66 - 0.2136 0.2283 0.2404 0.1973 0.2452
7.3684 70 0.2329 - - - - -
8.0 76 - 0.2103 0.2245 0.2392 0.1987 0.2408
8.4211 80 0.2059 - - - - -
8.9474 85 - 0.2118 0.2212 0.2366 0.1958 0.2372
9.4737 90 0.1947 - - - - -
10.0 95 - 0.2116 0.2166 0.2333 0.1947 0.2352
10.5263 100 0.1721 - - - - -
10.9474 104 - 0.2110 0.2168 0.2335 0.1947 0.2332
11.5789 110 0.1637 - - - - -
12.0 114 - 0.2076 0.2159 0.2343 0.1950 0.2331
12.6316 120 0.1553 - - - - -
12.9474 123 - 0.2077 0.2169 0.2321 0.1955 0.2342
13.6842 130 0.1488 - - - - -
14.0 133 - 0.2083 0.2170 0.2313 0.1952 0.2369
14.7368 140 0.1436 - - - - -
14.9474 142 - 0.2082 0.2184 0.2312 0.1927 0.2368
15.7895 150 0.1347 - - - - -
16.0 152 - 0.2069 0.2162 0.2297 0.1925 0.2340
16.8421 160 0.1363 - - - - -
16.9474 161 - 0.2081 0.2183 0.2331 0.1915 0.2357
17.8947 170 0.1391 - - - - -
18.0 171 - 0.2067 0.2170 0.2312 0.1931 0.2328
18.9474 180 0.1376 0.2077 0.2171 0.2312 0.1926 0.2316
0.9474 9 - 0.2157 0.2234 0.2388 0.2002 0.2414
1.0526 10 0.236 - - - - -
2.0 19 - 0.2104 0.2256 0.2406 0.1950 0.2409
2.1053 20 0.23 - - - - -
2.9474 28 - 0.2103 0.2267 0.2362 0.1973 0.2405
3.1579 30 0.2026 - - - - -
4.0 38 - 0.2052 0.2210 0.2352 0.1939 0.2405
4.2105 40 0.1806 - - - - -
4.9474 47 - 0.2055 0.2201 0.2338 0.1930 0.2397
5.2632 50 0.1738 - - - - -
6.0 57 - 0.2060 0.2190 0.2358 0.1935 0.2391
6.3158 60 0.147 - - - - -
6.9474 66 - 0.2071 0.2128 0.2299 0.1928 0.2321
7.3684 70 0.1341 - - - - -
8.0 76 - 0.2054 0.2114 0.2281 0.1908 0.2325
8.4211 80 0.1225 - - - - -
8.9474 85 - 0.2037 0.2104 0.2244 0.1933 0.2263
9.4737 90 0.118 - - - - -
10.0 95 - 0.2072 0.2092 0.2248 0.1902 0.2305
10.5263 100 0.1037 - - - - -
10.9474 104 - 0.2053 0.2096 0.2240 0.1867 0.2300
11.5789 110 0.0954 - - - - -
12.0 114 - 0.2040 0.2067 0.2230 0.1846 0.2287
12.6316 120 0.0947 - - - - -
12.9474 123 - 0.2006 0.2043 0.2222 0.1850 0.2267
13.6842 130 0.0892 - - - - -
14.0 133 - 0.2044 0.2060 0.2210 0.1831 0.2249
14.7368 140 0.0834 - - - - -
14.9474 142 - 0.2057 0.2046 0.2223 0.1802 0.2252
15.7895 150 0.0821 - - - - -
16.0 152 - 0.2047 0.2048 0.2208 0.1806 0.2244
16.8421 160 0.0847 - - - - -
16.9474 161 - 0.2046 0.2042 0.2221 0.1829 0.2239
17.8947 170 0.0817 - - - - -
18.0 171 - 0.2046 0.2055 0.2218 0.1813 0.2245
18.9474 180 0.0833 0.2157 0.2234 0.2388 0.2002 0.2414
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.44.2
  • PyTorch: 2.4.1+cu121
  • Accelerate: 0.34.2
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning}, 
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply}, 
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}