Add new SentenceTransformer model.
Browse files- 1_Pooling/config.json +10 -0
- README.md +587 -0
- config.json +33 -0
- config_sentence_transformers.json +10 -0
- merges.txt +0 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +0 -0
- tokenizer_config.json +64 -0
- vocab.json +0 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,587 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: ymelka/robbert-cosmetic-v2-finetuned
|
3 |
+
datasets: []
|
4 |
+
language: []
|
5 |
+
library_name: sentence-transformers
|
6 |
+
metrics:
|
7 |
+
- pearson_cosine
|
8 |
+
- spearman_cosine
|
9 |
+
- pearson_manhattan
|
10 |
+
- spearman_manhattan
|
11 |
+
- pearson_euclidean
|
12 |
+
- spearman_euclidean
|
13 |
+
- pearson_dot
|
14 |
+
- spearman_dot
|
15 |
+
- pearson_max
|
16 |
+
- spearman_max
|
17 |
+
pipeline_tag: sentence-similarity
|
18 |
+
tags:
|
19 |
+
- sentence-transformers
|
20 |
+
- sentence-similarity
|
21 |
+
- feature-extraction
|
22 |
+
- generated_from_trainer
|
23 |
+
- dataset_size:4200
|
24 |
+
- loss:CoSENTLoss
|
25 |
+
widget:
|
26 |
+
- source_sentence: Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van
|
27 |
+
mannen van 37 jaar. Deze reiniger helpt roodheid en onzuiverheden te verminderen,
|
28 |
+
terwijl het de huid zacht en gehydrateerd achterlaat.
|
29 |
+
sentences:
|
30 |
+
- De Shiseido Waso Koshirice Tinted Spot Treatment SOS Imperfections Subtle Peach
|
31 |
+
is een hybride behandeling en concealer die puistjes vervaagt en verzorgt. Met
|
32 |
+
het antioxiderende Koshihikari-rijst extract en salicylzuur vermindert het direct
|
33 |
+
oneffenheden en roodheid, terwijl het de huid voedt en beschermt. De formule bevat
|
34 |
+
ook Japanse Shikuwasa-extract en glycyrrhizinaat voor een verbeterde huidbarrière
|
35 |
+
en egale teint. Breng een kleine hoeveelheid aan op probleemzones 2-3 keer per
|
36 |
+
dag voor een langdurig effect. Geschikt voor alle huidtypes.
|
37 |
+
- Neutrogena Retinol Boost Intense Nacht Serum is een krachtig serum dat de huid
|
38 |
+
's nachts intensief verzorgt en herstelt. Dit serum bevat retinol, een krachtig
|
39 |
+
ingrediënt dat de huidtextuur verbetert, fijne lijntjes en rimpels vermindert
|
40 |
+
en de huidteint egaliseert. Daarnaast bevat het serum hyaluronzuur en vitamine
|
41 |
+
C, die de huid hydrateren en beschermen tegen schadelijke invloeden van buitenaf.
|
42 |
+
Breng elke avond een paar druppels aan op een gereinigde huid en masseer zachtjes
|
43 |
+
in. Gebruik het serum in combinatie met een SPF overdag, aangezien retinol de
|
44 |
+
huid gevoeliger kan maken voor de zon. Dit serum is geschikt voor alle huidtypes,
|
45 |
+
maar kan irritatie veroorzaken bij een gevoelige huid.
|
46 |
+
- 'Nivea Labello Protect+ Lippenbalsem SPF 15 Duo 2x4,8g verzorgt droge en gebarsten
|
47 |
+
lippen, kalmeert direct en houdt je lippen 24u lang gehydrateerd. De formule trekt
|
48 |
+
snel in en helpt gebarsten lippen te herstellen, terwijl de SPF 15 beschermt tegen
|
49 |
+
schadelijke zonnestralen. Met actieve ingrediënten zoals sheaboter, jojoba-olie
|
50 |
+
en vitamine E. Gebruik de lippenbalsem regelmatig voor zachte en soepele lippen.
|
51 |
+
Let op: niet gebruiken bij allergie voor een van de ingrediënten.'
|
52 |
+
- source_sentence: Een voedingssupplement met essentiële voedingsstoffen en antioxidanten
|
53 |
+
om de huid van binnenuit te voeden en te beschermen. Ideaal voor vrouwen van 29
|
54 |
+
jaar die streven naar een gezonde en stralende huid.
|
55 |
+
sentences:
|
56 |
+
- De Babor Shaping Vitamine ACE Lichaamscrème is een luxe crème die de huid intensief
|
57 |
+
voedt en hydrateert. Dankzij de krachtige combinatie van vitamine A, C en E wordt
|
58 |
+
de huid verstevigd, verhelderd en beschermd tegen vrije radicalen. Deze crème
|
59 |
+
is ideaal voor het verbeteren van de elasticiteit en stevigheid van de huid, waardoor
|
60 |
+
het uiterlijk van cellulitis en striae wordt verminderd. De actieve ingrediënten
|
61 |
+
dringen diep door in de huid om langdurige resultaten te bieden. Breng de crème
|
62 |
+
dagelijks aan op een gereinigde huid en masseer zachtjes in tot het volledig is
|
63 |
+
opgenomen. Vermijd contact met de ogen en gebruik niet op een beschadigde huid.
|
64 |
+
- 'Ma Provence Shampoo Anti-Roos met Natuurlijke Witte Klei is een handig en milieuvriendelijk
|
65 |
+
product dat perfect is voor op reis. Met een handige maat van 85 g en een centraal
|
66 |
+
gat voor een gemakkelijke grip, komt deze shampoo overeen met 40-50 shampoos,
|
67 |
+
wat gelijk staat aan 2 flessen van 250 ml. Deze shampoo heeft geen conditioner
|
68 |
+
nodig, wat resulteert in minder verpakkingsafval. De formule is 100% natuurlijk
|
69 |
+
en bevat 20% biologische ingrediënten, waardoor het ideaal is voor mensen die
|
70 |
+
op zoek zijn naar natuurlijke producten. Ma Provence Shampoo Anti-Roos is speciaal
|
71 |
+
ontwikkeld om roos te bestrijden en is gecertificeerd als 100% natuurlijk en biologisch.
|
72 |
+
Gebruiksaanwijzing: Breng een kleine hoeveelheid shampoo aan op nat haar, masseer
|
73 |
+
zachtjes in en spoel grondig uit. Gebruik indien nodig. Voorzorgsmaatregelen:
|
74 |
+
Vermijd contact met de ogen en bij eventuele irritatie stop het gebruik.'
|
75 |
+
- Avène Men Hydraterende Anti-Agingverzorging is speciaal ontwikkeld voor mannen
|
76 |
+
om de huid te hydrateren, revitaliseren en strakker te maken. Deze verzorging
|
77 |
+
werkt op de tekenen van huidveroudering, zoals de structuur van de dermis en elasticiteit,
|
78 |
+
dankzij actieve ingrediënten zoals hyaluronzuur en antioxidanten. De niet-plakkerige
|
79 |
+
textuur zorgt voor een comfortabel gevoel en is geschikt voor alle gevoelige huidtypes,
|
80 |
+
zelfs na het scheren. Breng de verzorging aan op het gelaat en de hals voor een
|
81 |
+
stevigere en compacter uitziende huid. Gebruik de pompfles van 50 ml volgens de
|
82 |
+
aanbevolen instructies voor optimale resultaten.
|
83 |
+
- source_sentence: Een milde reiniger speciaal ontwikkeld voor de rijpere huid van
|
84 |
+
vrouwen boven de 60. Verrijkt met antioxidanten en hydraterende ingrediënten om
|
85 |
+
de doffe huid te revitaliseren en onzuiverheden te verwijderen.
|
86 |
+
sentences:
|
87 |
+
- De Cattier Zuiverende Reinigingsgel is speciaal ontwikkeld voor de vette huid
|
88 |
+
met onzuiverheden en puistjes. Met biologische essentiële oliën van tea tree,
|
89 |
+
rozemarijn en pepermunt reinigt deze gel zacht de huid en verwijdert effectief
|
90 |
+
onzuiverheden en overtollig talg. Verrijkt met aloë vera, biedt het een aangename
|
91 |
+
sensatie van frisheid en laat de huid helder en gezond achter. De actieve ingrediënten,
|
92 |
+
waaronder biologische tea tree olie en aloë vera, helpen de huid te zuiveren,
|
93 |
+
hydrateren en beschermen. Breng de gel aan op een vochtig gezicht, vermijd de
|
94 |
+
oogcontour, masseer in en spoel af met lauw water. Gebruik de gel regelmatig voor
|
95 |
+
een zuivere en gezonde huid.
|
96 |
+
- 'De Clarins Extra-Firming Anti-Rimpel Rijke Verstevigende Dagcrème is een ideale
|
97 |
+
anti-ageing dagverzorging voor de droge huid, speciaal ontworpen voor vrouwen
|
98 |
+
vanaf 40 jaar. Deze crème zorgt voor een zichtbaar stevigere en energieke huid,
|
99 |
+
vermindert rimpels en herdefinieert het ovaal van het gezicht. De formule bevat
|
100 |
+
actieve ingrediënten zoals shea butter, haverextract en vitamine E die de huid
|
101 |
+
hydrateren, beschermen en verstevigen. Breng ''s ochtends aan op een schone huid
|
102 |
+
voor een egale teint en stralende huid. Let op: vermijd contact met de ogen en
|
103 |
+
bij eventuele irritatie stop het gebruik. Pot 50 ml.'
|
104 |
+
- La Roche-Posay Effaclar Zuiverende Schuimende Reiningsgel is speciaal ontwikkeld
|
105 |
+
voor de vette huid met neiging tot acne. Deze reinigingsgel reinigt en zuivert
|
106 |
+
het gezicht zachtjes, verwijdert onzuiverheden en overmatig sebum, en houdt de
|
107 |
+
huid schoon en fris. De formule bevat thermaal water van La Roche-Posay voor een
|
108 |
+
kalmerende werking. Geschikt voor volwassenen en adolescenten met een vette huid,
|
109 |
+
oneffenheden of acne. Gebruik 1 à 2 keer per dag, masseer zachtjes in op een vochtig
|
110 |
+
gezicht en spoel grondig af met water. Niet gebruiken bij overgevoeligheid voor
|
111 |
+
een van de ingrediënten.
|
112 |
+
- source_sentence: Een voedende gezichtsverzorging die diep in de huid doordringt
|
113 |
+
om droogheid te behandelen. Speciaal samengesteld voor vrouwen van 24 jaar, deze
|
114 |
+
crème helpt de huid te hydrateren en te herstellen, waardoor een gezonde gloed
|
115 |
+
wordt bevorderd.
|
116 |
+
sentences:
|
117 |
+
- Waam Damast Bloemenwater Bio Spray 200ml is een kalmerende en verfrissende spray
|
118 |
+
met de heerlijke geur van Damastroos. Dit bloemenwater hydrateert intensief, verstevigt
|
119 |
+
en zuivert de huid op milde wijze, ideaal voor gecombineerde tot vette huidtypes.
|
120 |
+
Het staat bekend om zijn antiverouderingseigenschappen en helpt bij het voorkomen
|
121 |
+
van huidveroudering. De spray kan gebruikt worden voor het gezicht, lichaam en
|
122 |
+
haar, en is geschikt voor alle huidtypes, vooral rijpere of reactieve huid. De
|
123 |
+
belangrijkste actieve ingrediënten zijn biologisch aloë vera water en Damastroosbloesemwater.
|
124 |
+
Gebruik de spray om make-up te verwijderen, huidirritatie te kalmeren of je huis
|
125 |
+
subtiel te parfumeren. Niet doorslikken en bewaren op kamertemperatuur.
|
126 |
+
- Benecos Natural Care Lippenbalsem Sinaas is een fruitige lipverzorging met een
|
127 |
+
heerlijke zoete sinaasappelgeur, verrijkt met hoogwaardige biologische sinaasappelolie
|
128 |
+
om de lippen zacht en gehydrateerd te houden. Deze lippenbalsem is ideaal voor
|
129 |
+
dagelijks gebruik en biedt bescherming tegen uitdroging en schrale lippen. De
|
130 |
+
natuurlijke ingrediënten zorgen voor een milde verzorging en een aangename geur.
|
131 |
+
Breng de lippenbalsem eenvoudig aan op de lippen voor een langdurige hydratatie.
|
132 |
+
Deze lippenbalsem is geschikt voor alle huidtypes en bevat 4,8 g product. Gebruik
|
133 |
+
het product naar behoefte en geniet van zachte en verzorgde lippen.
|
134 |
+
- De Fleurance Nature Hydraterende Gezichtscreme Met Aloë Vera is speciaal ontwikkeld
|
135 |
+
om de natuurlijke hydratatie van de huid te behouden en te beschermen tegen agressieve
|
136 |
+
invloeden van buitenaf. Deze lichte crème bevat aloë vera, sheaboter en jojobaolie
|
137 |
+
die de huid verzachten, hydrateren en voeden. Geschikt voor alle huidtypes, deze
|
138 |
+
bio gecertificeerde crème trekt snel in en laat de huid soepel en gezond aanvoelen.
|
139 |
+
Breng de crème aan op gezicht en hals met lichte masserende bewegingen voor een
|
140 |
+
gezonde en goed gehydrateerde huid. Bevat 50 ml.
|
141 |
+
- source_sentence: Een hydraterende gezichtsverzorging die de doffe huid van een 18-jarige
|
142 |
+
vrouw weer laat stralen. Bevat antioxidanten die de huid beschermen tegen schadelijke
|
143 |
+
invloeden van buitenaf. Vermindert wallen en onzuiverheden voor een egale en gezonde
|
144 |
+
teint.
|
145 |
+
sentences:
|
146 |
+
- Alpecin Hypo-Sensitive Shampoo is speciaal ontwikkeld voor mensen met een gevoelige
|
147 |
+
hoofdhuid en biedt een zachte reiniging en hydratatie. De hypoallergene formule
|
148 |
+
bevat geen parfum, kleurstoffen of conserveermiddelen en is zelfs geschikt voor
|
149 |
+
mensen met atopisch eczeem. Met actieve ingrediënten zoals salie-extract en bisabolol
|
150 |
+
kalmeert en voorkomt het irritaties, terwijl het de huidbarrière versterkt voor
|
151 |
+
een gezonde balans. Gebruik de shampoo dagelijks door het zachtjes in te masseren
|
152 |
+
op nat haar en grondig uit te spoelen. De fles bevat 250 ml en is ideaal voor
|
153 |
+
mensen met een droge en gevoelige hoofdhuid.
|
154 |
+
- Phyto Phytocolor Permanente Kleuring 3 Donkerbruin 1 Kit is een haarverf verrijkt
|
155 |
+
met plantaardige pigmenten voor een rijke kleur die niet vervaagt en 100% grijze
|
156 |
+
haren dekt. De formule bevat monoï en jojoba oliën voor een mooie glans en verzorging,
|
157 |
+
terwijl kalmerende ingrediënten irritatie tegengaan. De kleurcrème bevat geen
|
158 |
+
PPD of resorcine en is geschikt voor haar. Breng het mengsel aan op droog, ongewassen
|
159 |
+
haar en laat het inwerken volgens de instructies. Voer altijd een allergietest
|
160 |
+
uit voor gebruik. Met Phyto Phytocolor geniet je van een intense kleur met natuurlijke
|
161 |
+
schakeringen en verzorg je je haar op een zachte manier.
|
162 |
+
- De T.LeClerc Geheime Droge Olie is een voedende olie met een poederige geur van
|
163 |
+
witte iris die de huid hydrateert en een langdurige geur achterlaat. Geschikt
|
164 |
+
voor de gevoelige huid, bevat deze olie 5 plantaardige oliën zoals rijstzemelolie,
|
165 |
+
zoete amandelolie en sesamzaadolie die de huid kalmeren, beschermen en revitaliseren.
|
166 |
+
Ideaal voor het lichaam en haar, kan de olie het hele jaar door worden gebruikt
|
167 |
+
door een paar druppels in de handpalmen te verwarmen en in te masseren. Voor een
|
168 |
+
effectieve werking kan de olie ook als masker op de hoofdhuid en lengten worden
|
169 |
+
aangebracht en na 30 minuten worden uitgespoeld. Gebruik met voorzichtigheid bij
|
170 |
+
allergieën voor een van de ingrediënten.
|
171 |
+
model-index:
|
172 |
+
- name: SentenceTransformer based on ymelka/robbert-cosmetic-v2-finetuned
|
173 |
+
results:
|
174 |
+
- task:
|
175 |
+
type: semantic-similarity
|
176 |
+
name: Semantic Similarity
|
177 |
+
dataset:
|
178 |
+
name: dev
|
179 |
+
type: dev
|
180 |
+
metrics:
|
181 |
+
- type: pearson_cosine
|
182 |
+
value: 0.8646855536832553
|
183 |
+
name: Pearson Cosine
|
184 |
+
- type: spearman_cosine
|
185 |
+
value: 0.9307532547762918
|
186 |
+
name: Spearman Cosine
|
187 |
+
- type: pearson_manhattan
|
188 |
+
value: 0.8406446921386265
|
189 |
+
name: Pearson Manhattan
|
190 |
+
- type: spearman_manhattan
|
191 |
+
value: 0.9304243863652625
|
192 |
+
name: Spearman Manhattan
|
193 |
+
- type: pearson_euclidean
|
194 |
+
value: 0.8382514640398003
|
195 |
+
name: Pearson Euclidean
|
196 |
+
- type: spearman_euclidean
|
197 |
+
value: 0.9307301686010424
|
198 |
+
name: Spearman Euclidean
|
199 |
+
- type: pearson_dot
|
200 |
+
value: 0.8395448144279598
|
201 |
+
name: Pearson Dot
|
202 |
+
- type: spearman_dot
|
203 |
+
value: 0.926131782390444
|
204 |
+
name: Spearman Dot
|
205 |
+
- type: pearson_max
|
206 |
+
value: 0.8646855536832553
|
207 |
+
name: Pearson Max
|
208 |
+
- type: spearman_max
|
209 |
+
value: 0.9307532547762918
|
210 |
+
name: Spearman Max
|
211 |
+
---
|
212 |
+
|
213 |
+
# SentenceTransformer based on ymelka/robbert-cosmetic-v2-finetuned
|
214 |
+
|
215 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [ymelka/robbert-cosmetic-v2-finetuned](https://huggingface.co/ymelka/robbert-cosmetic-v2-finetuned). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
216 |
+
|
217 |
+
## Model Details
|
218 |
+
|
219 |
+
### Model Description
|
220 |
+
- **Model Type:** Sentence Transformer
|
221 |
+
- **Base model:** [ymelka/robbert-cosmetic-v2-finetuned](https://huggingface.co/ymelka/robbert-cosmetic-v2-finetuned) <!-- at revision 12eb96695b4dd6222445c8973202325d5d2c61db -->
|
222 |
+
- **Maximum Sequence Length:** 512 tokens
|
223 |
+
- **Output Dimensionality:** 768 tokens
|
224 |
+
- **Similarity Function:** Cosine Similarity
|
225 |
+
<!-- - **Training Dataset:** Unknown -->
|
226 |
+
<!-- - **Language:** Unknown -->
|
227 |
+
<!-- - **License:** Unknown -->
|
228 |
+
|
229 |
+
### Model Sources
|
230 |
+
|
231 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
232 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
233 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
234 |
+
|
235 |
+
### Full Model Architecture
|
236 |
+
|
237 |
+
```
|
238 |
+
SentenceTransformer(
|
239 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
|
240 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
241 |
+
)
|
242 |
+
```
|
243 |
+
|
244 |
+
## Usage
|
245 |
+
|
246 |
+
### Direct Usage (Sentence Transformers)
|
247 |
+
|
248 |
+
First install the Sentence Transformers library:
|
249 |
+
|
250 |
+
```bash
|
251 |
+
pip install -U sentence-transformers
|
252 |
+
```
|
253 |
+
|
254 |
+
Then you can load this model and run inference.
|
255 |
+
```python
|
256 |
+
from sentence_transformers import SentenceTransformer
|
257 |
+
|
258 |
+
# Download from the 🤗 Hub
|
259 |
+
model = SentenceTransformer("ymelka/robbert-cosmetic-similarity")
|
260 |
+
# Run inference
|
261 |
+
sentences = [
|
262 |
+
'Een hydraterende gezichtsverzorging die de doffe huid van een 18-jarige vrouw weer laat stralen. Bevat antioxidanten die de huid beschermen tegen schadelijke invloeden van buitenaf. Vermindert wallen en onzuiverheden voor een egale en gezonde teint.',
|
263 |
+
'Alpecin Hypo-Sensitive Shampoo is speciaal ontwikkeld voor mensen met een gevoelige hoofdhuid en biedt een zachte reiniging en hydratatie. De hypoallergene formule bevat geen parfum, kleurstoffen of conserveermiddelen en is zelfs geschikt voor mensen met atopisch eczeem. Met actieve ingrediënten zoals salie-extract en bisabolol kalmeert en voorkomt het irritaties, terwijl het de huidbarrière versterkt voor een gezonde balans. Gebruik de shampoo dagelijks door het zachtjes in te masseren op nat haar en grondig uit te spoelen. De fles bevat 250 ml en is ideaal voor mensen met een droge en gevoelige hoofdhuid.',
|
264 |
+
'Phyto Phytocolor Permanente Kleuring 3 Donkerbruin 1 Kit is een haarverf verrijkt met plantaardige pigmenten voor een rijke kleur die niet vervaagt en 100% grijze haren dekt. De formule bevat monoï en jojoba oliën voor een mooie glans en verzorging, terwijl kalmerende ingrediënten irritatie tegengaan. De kleurcrème bevat geen PPD of resorcine en is geschikt voor haar. Breng het mengsel aan op droog, ongewassen haar en laat het inwerken volgens de instructies. Voer altijd een allergietest uit voor gebruik. Met Phyto Phytocolor geniet je van een intense kleur met natuurlijke schakeringen en verzorg je je haar op een zachte manier.',
|
265 |
+
]
|
266 |
+
embeddings = model.encode(sentences)
|
267 |
+
print(embeddings.shape)
|
268 |
+
# [3, 768]
|
269 |
+
|
270 |
+
# Get the similarity scores for the embeddings
|
271 |
+
similarities = model.similarity(embeddings, embeddings)
|
272 |
+
print(similarities.shape)
|
273 |
+
# [3, 3]
|
274 |
+
```
|
275 |
+
|
276 |
+
<!--
|
277 |
+
### Direct Usage (Transformers)
|
278 |
+
|
279 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
280 |
+
|
281 |
+
</details>
|
282 |
+
-->
|
283 |
+
|
284 |
+
<!--
|
285 |
+
### Downstream Usage (Sentence Transformers)
|
286 |
+
|
287 |
+
You can finetune this model on your own dataset.
|
288 |
+
|
289 |
+
<details><summary>Click to expand</summary>
|
290 |
+
|
291 |
+
</details>
|
292 |
+
-->
|
293 |
+
|
294 |
+
<!--
|
295 |
+
### Out-of-Scope Use
|
296 |
+
|
297 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
298 |
+
-->
|
299 |
+
|
300 |
+
## Evaluation
|
301 |
+
|
302 |
+
### Metrics
|
303 |
+
|
304 |
+
#### Semantic Similarity
|
305 |
+
* Dataset: `dev`
|
306 |
+
* Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
|
307 |
+
|
308 |
+
| Metric | Value |
|
309 |
+
|:--------------------|:-----------|
|
310 |
+
| pearson_cosine | 0.8647 |
|
311 |
+
| **spearman_cosine** | **0.9308** |
|
312 |
+
| pearson_manhattan | 0.8406 |
|
313 |
+
| spearman_manhattan | 0.9304 |
|
314 |
+
| pearson_euclidean | 0.8383 |
|
315 |
+
| spearman_euclidean | 0.9307 |
|
316 |
+
| pearson_dot | 0.8395 |
|
317 |
+
| spearman_dot | 0.9261 |
|
318 |
+
| pearson_max | 0.8647 |
|
319 |
+
| spearman_max | 0.9308 |
|
320 |
+
|
321 |
+
<!--
|
322 |
+
## Bias, Risks and Limitations
|
323 |
+
|
324 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
325 |
+
-->
|
326 |
+
|
327 |
+
<!--
|
328 |
+
### Recommendations
|
329 |
+
|
330 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
331 |
+
-->
|
332 |
+
|
333 |
+
## Training Details
|
334 |
+
|
335 |
+
### Training Dataset
|
336 |
+
|
337 |
+
#### Unnamed Dataset
|
338 |
+
|
339 |
+
|
340 |
+
* Size: 4,200 training samples
|
341 |
+
* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
|
342 |
+
* Approximate statistics based on the first 1000 samples:
|
343 |
+
| | sentence1 | sentence2 | score |
|
344 |
+
|:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------|
|
345 |
+
| type | string | string | float |
|
346 |
+
| details | <ul><li>min: 35 tokens</li><li>mean: 56.45 tokens</li><li>max: 86 tokens</li></ul> | <ul><li>min: 80 tokens</li><li>mean: 146.59 tokens</li><li>max: 223 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.51</li><li>max: 1.0</li></ul> |
|
347 |
+
* Samples:
|
348 |
+
| sentence1 | sentence2 | score |
|
349 |
+
|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|
|
350 |
+
| <code>Een voedingssupplement met essentiële vetzuren en vitamines om de huid van binnenuit te voeden en te ondersteunen. Dit supplement is speciaal samengesteld voor vrouwen van 22 jaar oud om droogheid te bestrijden en de algehele gezondheid van de huid te verbeteren.</code> | <code>De Lancaster Sun Beauty Sublime Tan Body Milk SPF30 is een vederlichte en niet-vette bodylotion die de huid beschermt tegen schadelijke zonnestralen en helpt bij het herstellen van zonschade. De crèmige textuur smelt direct op de huid en zorgt voor een gezonde bruine teint in de helft van de gebruikelijke tijd. De formule is geschikt voor alle huidtypes en laat geen wit laagje achter, met een fluweelachtige finish als resultaat. Belangrijke actieve ingrediënten zijn onder andere Bambusa arundinacea stem extract en Mauritia flexuosa fruit oil, die de huid hydrateren en beschermen. Breng royaal aan vóór blootstelling aan de zon en herhaal regelmatig. Let op: overmatige blootstelling aan de zon kan schadelijk zijn voor de gezondheid. Inhoud: 175 ml.</code> | <code>0.0040877847932279</code> |
|
351 |
+
| <code>Een geavanceerde gezichtsverzorging voor vrouwen van 50 jaar en ouder, gericht op het verminderen van poriën, het verbeteren van een doffe huid en het verminderen van wallen. Deze verzorging bevat krachtige ingrediënten die de huid hydrateren, verstevigen en verjongen, waardoor de tekenen van veroudering worden verminderd en de huid een jeugdige uitstraling krijgt.</code> | <code>De L'Oréal Paris Age Perfect Re-Hydraterende Dagcreme is speciaal ontwikkeld voor vrouwen vanaf 50 jaar om pigmentvlekken te verminderen en de huid te verstevigen. Verrijkt met sojapeptiden, hydrateert en stimuleert deze crème de natuurlijke synthese van huidvezels, waardoor de huid stralend en stevig wordt. Na één maand zijn pigmentvlekken vervaagd en is de huid gehydrateerd. Breng 's ochtends aan op een gereinigd gezicht en hals voor optimale resultaten. Let op: alleen voor uitwendig gebruik.</code> | <code>0.9995909333229064</code> |
|
352 |
+
| <code>Een rijke gezichtsverzorging voor vrouwen boven de 70 jaar die last hebben van droogheid, roodheid en vergrote poriën. Deze verzorging hydrateert diep, vermindert roodheid en herstelt de natuurlijke balans van de huid. Het helpt ook om de poriën te verfijnen en de huid te verstevigen.</code> | <code>De Clarins Extra-Firming Verstevigende Behandeling Essence is speciaal ontwikkeld voor vrouwen in de veertig om de huid intensief te hydrateren, in balans te brengen en een jeugdige uitstraling te geven. Deze essence combineert krachtige botanische ingrediënten met hyaluronzuur om de huid te vernieuwen en te verkwikken, waardoor deze steviger en elastischer wordt. De fluweelachtige textuur zorgt voor een vollere en soepelere huid. Gebruik dagelijks 's ochtends en/of 's avonds door een paar druppels zachtjes op het gezicht aan te brengen. Niet aanbevolen voor personen onder de 40 jaar.</code> | <code>0.9986273050308228</code> |
|
353 |
+
* Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
|
354 |
+
```json
|
355 |
+
{
|
356 |
+
"scale": 20.0,
|
357 |
+
"similarity_fct": "pairwise_cos_sim"
|
358 |
+
}
|
359 |
+
```
|
360 |
+
|
361 |
+
### Evaluation Dataset
|
362 |
+
|
363 |
+
#### Unnamed Dataset
|
364 |
+
|
365 |
+
|
366 |
+
* Size: 690 evaluation samples
|
367 |
+
* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
|
368 |
+
* Approximate statistics based on the first 1000 samples:
|
369 |
+
| | sentence1 | sentence2 | score |
|
370 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:--------------------------------------------------------------|
|
371 |
+
| type | string | string | float |
|
372 |
+
| details | <ul><li>min: 35 tokens</li><li>mean: 56.5 tokens</li><li>max: 81 tokens</li></ul> | <ul><li>min: 97 tokens</li><li>mean: 146.09 tokens</li><li>max: 207 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.5</li><li>max: 1.0</li></ul> |
|
373 |
+
* Samples:
|
374 |
+
| sentence1 | sentence2 | score |
|
375 |
+
|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|
|
376 |
+
| <code>Een diep reinigende gezichtsreiniger speciaal ontwikkeld voor vrouwen van 36 jaar en ouder met pigmentvlekken, rimpels en een vette huid. Deze reiniger verwijdert onzuiverheden en overtollig talg, verheldert de huid en vermindert tekenen van veroudering.</code> | <code>Embryolisse Eco-Recharge Vloeibare Melk-Crème 400ml is een hydraterende en voedende crème die de huid intensief verzorgt en beschermt. Deze vloeibare melk-crème is geschikt voor alle huidtypes en zorgt voor een zachte en soepele huid. De formule bevat actieve ingrediënten zoals shea boter, aloë vera en soja-eiwitten die de huid hydrateren, kalmeren en herstellen. Breng de crème dagelijks aan op een gereinigde huid en masseer zachtjes in. Gebruik het product bij voorkeur 's ochtends en 's avonds voor optimale resultaten. Let op: vermijd contact met de ogen en bij eventuele huidirritatie het gebruik stoppen.</code> | <code>0.019439160823822</code> |
|
377 |
+
| <code>Een voedingssupplement met essentiële vitaminen en mineralen die de huid van binnenuit voeden en beschermen. Speciaal samengesteld voor vrouwen van 20 jaar om de huid te helpen bij het reguleren van talgproductie, het verminderen van vlekken en het verbeteren van de algehele huidconditie. Dit supplement draagt bij aan een gezonde en stralende huid.</code> | <code>Attitude Minerale Zonne Stick Orange Blossom SPF30 60g biedt een breedbandige bescherming tegen UVA- en UVB-stralen, met non-nano zinkoxide als actief ingrediënt. Deze veganistische formule is EWG Verified en dermatologisch getest, waardoor het veilig is voor de huid en het milieu. De handige biologisch afbreekbare kartonnen tube maakt het aanbrengen gemakkelijk en laat geen witte vlekken achter. Geniet van het heerlijke oranjebloesemaroma terwijl je huid beschermd wordt tegen de zon. Gebruik deze zonne stick voor een effectieve bescherming tijdens buitenactiviteiten.</code> | <code>0.0337340645492076</code> |
|
378 |
+
| <code>Een milde gezichtsreiniger speciaal ontwikkeld voor vrouwen van 50 jaar en ouder. Deze reiniger is ideaal voor het verwijderen van onzuiverheden en make-up, terwijl het de huid hydrateert en verzacht. Het helpt bij het verminderen van droogheid en roodheid, waardoor de huid er stralender en gezonder uitziet.</code> | <code>Avène Cleanance Zuiverende En Matterende Reinigingsgel is speciaal ontwikkeld voor de vette huid met imperfecties. Deze reinigingsgel reinigt de huid diep en verwijdert onzuiverheden en overtollig talg, waardoor de huid fris en mat blijft. De formule bevat actieve ingrediënten zoals Avène Thermaal Water en Monolaurine die de talgproductie reguleren en de huid zuiveren. Gebruik de reinigingsgel dagelijks, breng aan op een vochtig gezicht en masseer zachtjes in. Spoel af met water en dep de huid droog. Vermijd contact met de ogen. Geschikt voor dagelijks gebruik.</code> | <code>0.999606430530548</code> |
|
379 |
+
* Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
|
380 |
+
```json
|
381 |
+
{
|
382 |
+
"scale": 20.0,
|
383 |
+
"similarity_fct": "pairwise_cos_sim"
|
384 |
+
}
|
385 |
+
```
|
386 |
+
|
387 |
+
### Training Hyperparameters
|
388 |
+
#### Non-Default Hyperparameters
|
389 |
+
|
390 |
+
- `eval_strategy`: steps
|
391 |
+
- `learning_rate`: 2e-05
|
392 |
+
- `weight_decay`: 0.01
|
393 |
+
- `warmup_ratio`: 0.1
|
394 |
+
- `bf16`: True
|
395 |
+
- `batch_sampler`: no_duplicates
|
396 |
+
|
397 |
+
#### All Hyperparameters
|
398 |
+
<details><summary>Click to expand</summary>
|
399 |
+
|
400 |
+
- `overwrite_output_dir`: False
|
401 |
+
- `do_predict`: False
|
402 |
+
- `eval_strategy`: steps
|
403 |
+
- `prediction_loss_only`: True
|
404 |
+
- `per_device_train_batch_size`: 8
|
405 |
+
- `per_device_eval_batch_size`: 8
|
406 |
+
- `per_gpu_train_batch_size`: None
|
407 |
+
- `per_gpu_eval_batch_size`: None
|
408 |
+
- `gradient_accumulation_steps`: 1
|
409 |
+
- `eval_accumulation_steps`: None
|
410 |
+
- `learning_rate`: 2e-05
|
411 |
+
- `weight_decay`: 0.01
|
412 |
+
- `adam_beta1`: 0.9
|
413 |
+
- `adam_beta2`: 0.999
|
414 |
+
- `adam_epsilon`: 1e-08
|
415 |
+
- `max_grad_norm`: 1.0
|
416 |
+
- `num_train_epochs`: 3
|
417 |
+
- `max_steps`: -1
|
418 |
+
- `lr_scheduler_type`: linear
|
419 |
+
- `lr_scheduler_kwargs`: {}
|
420 |
+
- `warmup_ratio`: 0.1
|
421 |
+
- `warmup_steps`: 0
|
422 |
+
- `log_level`: passive
|
423 |
+
- `log_level_replica`: warning
|
424 |
+
- `log_on_each_node`: True
|
425 |
+
- `logging_nan_inf_filter`: True
|
426 |
+
- `save_safetensors`: True
|
427 |
+
- `save_on_each_node`: False
|
428 |
+
- `save_only_model`: False
|
429 |
+
- `restore_callback_states_from_checkpoint`: False
|
430 |
+
- `no_cuda`: False
|
431 |
+
- `use_cpu`: False
|
432 |
+
- `use_mps_device`: False
|
433 |
+
- `seed`: 42
|
434 |
+
- `data_seed`: None
|
435 |
+
- `jit_mode_eval`: False
|
436 |
+
- `use_ipex`: False
|
437 |
+
- `bf16`: True
|
438 |
+
- `fp16`: False
|
439 |
+
- `fp16_opt_level`: O1
|
440 |
+
- `half_precision_backend`: auto
|
441 |
+
- `bf16_full_eval`: False
|
442 |
+
- `fp16_full_eval`: False
|
443 |
+
- `tf32`: None
|
444 |
+
- `local_rank`: 0
|
445 |
+
- `ddp_backend`: None
|
446 |
+
- `tpu_num_cores`: None
|
447 |
+
- `tpu_metrics_debug`: False
|
448 |
+
- `debug`: []
|
449 |
+
- `dataloader_drop_last`: False
|
450 |
+
- `dataloader_num_workers`: 0
|
451 |
+
- `dataloader_prefetch_factor`: None
|
452 |
+
- `past_index`: -1
|
453 |
+
- `disable_tqdm`: False
|
454 |
+
- `remove_unused_columns`: True
|
455 |
+
- `label_names`: None
|
456 |
+
- `load_best_model_at_end`: False
|
457 |
+
- `ignore_data_skip`: False
|
458 |
+
- `fsdp`: []
|
459 |
+
- `fsdp_min_num_params`: 0
|
460 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
461 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
462 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
463 |
+
- `deepspeed`: None
|
464 |
+
- `label_smoothing_factor`: 0.0
|
465 |
+
- `optim`: adamw_torch
|
466 |
+
- `optim_args`: None
|
467 |
+
- `adafactor`: False
|
468 |
+
- `group_by_length`: False
|
469 |
+
- `length_column_name`: length
|
470 |
+
- `ddp_find_unused_parameters`: None
|
471 |
+
- `ddp_bucket_cap_mb`: None
|
472 |
+
- `ddp_broadcast_buffers`: False
|
473 |
+
- `dataloader_pin_memory`: True
|
474 |
+
- `dataloader_persistent_workers`: False
|
475 |
+
- `skip_memory_metrics`: True
|
476 |
+
- `use_legacy_prediction_loop`: False
|
477 |
+
- `push_to_hub`: False
|
478 |
+
- `resume_from_checkpoint`: None
|
479 |
+
- `hub_model_id`: None
|
480 |
+
- `hub_strategy`: every_save
|
481 |
+
- `hub_private_repo`: False
|
482 |
+
- `hub_always_push`: False
|
483 |
+
- `gradient_checkpointing`: False
|
484 |
+
- `gradient_checkpointing_kwargs`: None
|
485 |
+
- `include_inputs_for_metrics`: False
|
486 |
+
- `eval_do_concat_batches`: True
|
487 |
+
- `fp16_backend`: auto
|
488 |
+
- `push_to_hub_model_id`: None
|
489 |
+
- `push_to_hub_organization`: None
|
490 |
+
- `mp_parameters`:
|
491 |
+
- `auto_find_batch_size`: False
|
492 |
+
- `full_determinism`: False
|
493 |
+
- `torchdynamo`: None
|
494 |
+
- `ray_scope`: last
|
495 |
+
- `ddp_timeout`: 1800
|
496 |
+
- `torch_compile`: False
|
497 |
+
- `torch_compile_backend`: None
|
498 |
+
- `torch_compile_mode`: None
|
499 |
+
- `dispatch_batches`: None
|
500 |
+
- `split_batches`: None
|
501 |
+
- `include_tokens_per_second`: False
|
502 |
+
- `include_num_input_tokens_seen`: False
|
503 |
+
- `neftune_noise_alpha`: None
|
504 |
+
- `optim_target_modules`: None
|
505 |
+
- `batch_eval_metrics`: False
|
506 |
+
- `eval_on_start`: False
|
507 |
+
- `batch_sampler`: no_duplicates
|
508 |
+
- `multi_dataset_batch_sampler`: proportional
|
509 |
+
|
510 |
+
</details>
|
511 |
+
|
512 |
+
### Training Logs
|
513 |
+
| Epoch | Step | Training Loss | loss | dev_spearman_cosine |
|
514 |
+
|:------:|:----:|:-------------:|:------:|:-------------------:|
|
515 |
+
| 0 | 0 | - | - | 0.7531 |
|
516 |
+
| 0.1905 | 100 | 3.0709 | 2.7162 | 0.8810 |
|
517 |
+
| 0.3810 | 200 | 2.8254 | 2.8051 | 0.8745 |
|
518 |
+
| 0.5714 | 300 | 2.8368 | 2.7475 | 0.8922 |
|
519 |
+
| 0.7619 | 400 | 2.7198 | 2.6713 | 0.8986 |
|
520 |
+
| 0.9524 | 500 | 2.6541 | 2.6326 | 0.9097 |
|
521 |
+
| 1.1429 | 600 | 2.6628 | 2.5709 | 0.9131 |
|
522 |
+
| 1.3333 | 700 | 2.4183 | 2.7987 | 0.9213 |
|
523 |
+
| 1.5238 | 800 | 2.5213 | 2.5974 | 0.9197 |
|
524 |
+
| 1.7143 | 900 | 2.3733 | 3.1097 | 0.8956 |
|
525 |
+
| 1.9048 | 1000 | 2.3562 | 2.9513 | 0.9229 |
|
526 |
+
| 2.0952 | 1100 | 2.3511 | 2.9670 | 0.9246 |
|
527 |
+
| 2.2857 | 1200 | 2.1765 | 3.2356 | 0.9167 |
|
528 |
+
| 2.4762 | 1300 | 2.2738 | 3.1946 | 0.9280 |
|
529 |
+
| 2.6667 | 1400 | 2.1162 | 3.2512 | 0.9201 |
|
530 |
+
| 2.8571 | 1500 | 2.0996 | 3.0392 | 0.9288 |
|
531 |
+
| 3.0 | 1575 | - | - | 0.9308 |
|
532 |
+
|
533 |
+
|
534 |
+
### Framework Versions
|
535 |
+
- Python: 3.10.12
|
536 |
+
- Sentence Transformers: 3.0.1
|
537 |
+
- Transformers: 4.42.3
|
538 |
+
- PyTorch: 2.3.0+cu121
|
539 |
+
- Accelerate: 0.32.1
|
540 |
+
- Datasets: 2.20.0
|
541 |
+
- Tokenizers: 0.19.1
|
542 |
+
|
543 |
+
## Citation
|
544 |
+
|
545 |
+
### BibTeX
|
546 |
+
|
547 |
+
#### Sentence Transformers
|
548 |
+
```bibtex
|
549 |
+
@inproceedings{reimers-2019-sentence-bert,
|
550 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
551 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
552 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
553 |
+
month = "11",
|
554 |
+
year = "2019",
|
555 |
+
publisher = "Association for Computational Linguistics",
|
556 |
+
url = "https://arxiv.org/abs/1908.10084",
|
557 |
+
}
|
558 |
+
```
|
559 |
+
|
560 |
+
#### CoSENTLoss
|
561 |
+
```bibtex
|
562 |
+
@online{kexuefm-8847,
|
563 |
+
title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
|
564 |
+
author={Su Jianlin},
|
565 |
+
year={2022},
|
566 |
+
month={Jan},
|
567 |
+
url={https://kexue.fm/archives/8847},
|
568 |
+
}
|
569 |
+
```
|
570 |
+
|
571 |
+
<!--
|
572 |
+
## Glossary
|
573 |
+
|
574 |
+
*Clearly define terms in order to be accessible across audiences.*
|
575 |
+
-->
|
576 |
+
|
577 |
+
<!--
|
578 |
+
## Model Card Authors
|
579 |
+
|
580 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
581 |
+
-->
|
582 |
+
|
583 |
+
<!--
|
584 |
+
## Model Card Contact
|
585 |
+
|
586 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
587 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,33 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "ymelka/robbert-cosmetic-v2-finetuned",
|
3 |
+
"additional_special_tokens_ids": [],
|
4 |
+
"architectures": [
|
5 |
+
"RobertaModel"
|
6 |
+
],
|
7 |
+
"attention_probs_dropout_prob": 0.1,
|
8 |
+
"bos_token_id": 0,
|
9 |
+
"classifier_dropout": null,
|
10 |
+
"cls_token_id": 0,
|
11 |
+
"eos_token_id": 3,
|
12 |
+
"hidden_act": "gelu",
|
13 |
+
"hidden_dropout_prob": 0.1,
|
14 |
+
"hidden_size": 768,
|
15 |
+
"initializer_range": 0.02,
|
16 |
+
"intermediate_size": 3072,
|
17 |
+
"layer_norm_eps": 1e-05,
|
18 |
+
"mask_token_id": 4,
|
19 |
+
"max_position_embeddings": 514,
|
20 |
+
"model_type": "roberta",
|
21 |
+
"num_attention_heads": 12,
|
22 |
+
"num_hidden_layers": 12,
|
23 |
+
"pad_token_id": 1,
|
24 |
+
"position_embedding_type": "absolute",
|
25 |
+
"sep_token_id": 3,
|
26 |
+
"tokenizer_class": "RobertaTokenizerFast",
|
27 |
+
"torch_dtype": "float32",
|
28 |
+
"transformers_version": "4.42.3",
|
29 |
+
"type_vocab_size": 1,
|
30 |
+
"unk_token_id": 2,
|
31 |
+
"use_cache": true,
|
32 |
+
"vocab_size": 50000
|
33 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.0.1",
|
4 |
+
"transformers": "4.42.3",
|
5 |
+
"pytorch": "2.3.0+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
merges.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:dec97140933e2ac34217be3e173b3a0f1df29b6d9165535174aa58b182cc6ee7
|
3 |
+
size 497790824
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": true,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": true,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": true,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": true,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": true,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": true,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": true,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,64 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"add_prefix_space": false,
|
3 |
+
"added_tokens_decoder": {
|
4 |
+
"0": {
|
5 |
+
"content": "<s>",
|
6 |
+
"lstrip": false,
|
7 |
+
"normalized": true,
|
8 |
+
"rstrip": false,
|
9 |
+
"single_word": false,
|
10 |
+
"special": true
|
11 |
+
},
|
12 |
+
"1": {
|
13 |
+
"content": "<pad>",
|
14 |
+
"lstrip": false,
|
15 |
+
"normalized": true,
|
16 |
+
"rstrip": false,
|
17 |
+
"single_word": false,
|
18 |
+
"special": true
|
19 |
+
},
|
20 |
+
"2": {
|
21 |
+
"content": "<unk>",
|
22 |
+
"lstrip": false,
|
23 |
+
"normalized": true,
|
24 |
+
"rstrip": false,
|
25 |
+
"single_word": false,
|
26 |
+
"special": true
|
27 |
+
},
|
28 |
+
"3": {
|
29 |
+
"content": "</s>",
|
30 |
+
"lstrip": false,
|
31 |
+
"normalized": true,
|
32 |
+
"rstrip": false,
|
33 |
+
"single_word": false,
|
34 |
+
"special": true
|
35 |
+
},
|
36 |
+
"4": {
|
37 |
+
"content": "<mask>",
|
38 |
+
"lstrip": true,
|
39 |
+
"normalized": true,
|
40 |
+
"rstrip": false,
|
41 |
+
"single_word": false,
|
42 |
+
"special": true
|
43 |
+
}
|
44 |
+
},
|
45 |
+
"bos_token": "<s>",
|
46 |
+
"clean_up_tokenization_spaces": true,
|
47 |
+
"cls_token": "<s>",
|
48 |
+
"eos_token": "</s>",
|
49 |
+
"errors": "replace",
|
50 |
+
"mask_token": "<mask>",
|
51 |
+
"max_length": 512,
|
52 |
+
"model_max_length": 512,
|
53 |
+
"pad_to_multiple_of": null,
|
54 |
+
"pad_token": "<pad>",
|
55 |
+
"pad_token_type_id": 0,
|
56 |
+
"padding_side": "right",
|
57 |
+
"sep_token": "</s>",
|
58 |
+
"stride": 0,
|
59 |
+
"tokenizer_class": "RobertaTokenizer",
|
60 |
+
"trim_offsets": true,
|
61 |
+
"truncation_side": "right",
|
62 |
+
"truncation_strategy": "longest_first",
|
63 |
+
"unk_token": "<unk>"
|
64 |
+
}
|
vocab.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|