alperctnkaya commited on
Commit
2125075
1 Parent(s): 9bf220d

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,600 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: BAAI/bge-m3
3
+ library_name: sentence-transformers
4
+ metrics:
5
+ - negative_mse
6
+ - src2trg_accuracy
7
+ - trg2src_accuracy
8
+ - mean_accuracy
9
+ pipeline_tag: sentence-similarity
10
+ tags:
11
+ - sentence-transformers
12
+ - sentence-similarity
13
+ - feature-extraction
14
+ - generated_from_trainer
15
+ - dataset_size:1630390
16
+ - loss:MSELoss
17
+ widget:
18
+ - source_sentence: After that, it is possible to analyze the charts, price, key numbers
19
+ of the cryptocurrency. We recommend using technical analysis to determine the
20
+ best buying or selling price in the chart. Furthermore, most brokers offer you
21
+ analysis tools and indicators for free.
22
+ sentences:
23
+ - Bereket Emeklilik ve Hayat A.Ş. 1 Temmuz 2011 tarihinde kurulmuştur. 2012 yılının
24
+ Mayıs ayında faiz gelirine duyarlı müşterilerine hizmet verebilmek adına Türkiyenin
25
+ ilk faizsiz emeklilik şirketi olarak yola çıkan Bereket Emeklilik, 26 Kasım 2016
26
+ tarihinde açık ihale olarak imzalanan satış ve hisse devir sözleşmesi ile TMSFden
27
+ devralınmış ve 154 yıllık köklü bir geçmişe dayanan, 17 bölge birliği, 1619 kooperatifi
28
+ yaklaşık 1 milyon çiftçi ortağı olan Türkiye Tarım Kredi Kooperatiflerine devredilmiştir.
29
+ - Bundan sonra, kripto para biriminin grafiklerini, fiyatını, anahtar numaralarını
30
+ analiz etmek mümkündür. Grafikteki en iyi alış veya satış fiyatını belirlemek
31
+ için teknik analiz kullanmanızı öneririz. Ayrıca, çoğu broker size analiz araçlarını
32
+ ve göstergelerini ücretsiz olarak sunar.
33
+ - 'METRO İLE Aynı zamanda Cevahir Alış Veriş Merkezi, Zorlu Center, Kanyon Alış
34
+ Veriş Merkezine direk bağlantısı bulunmaktadır. İstinye Park Alış Veriş Merkezi
35
+ ise İstinye durağından yürüyüş mesafesindedir. Tercihinizi Taksim Meydanı ya da
36
+ İstiklal Caddesinden yana kullanmak isterseniz ve Molton Suites Nişantaşından
37
+ yürüyüş yerine tercihiniz yine Metro olacaksa sadece bir durak sonra Taksim meydanına
38
+ ulaşacaksınız. Taksim bölgesinin vazgeçilmezlerini sıralayacak olursak: İstiklal
39
+ Caddesi, Çiçek Pasajı, Pera Müzesi, Tünel, Atatürk Kültür Merkezi, Eşsiz Haliç,
40
+ Sinemalar ve yüzlerce Restaurant, Bar seçeneği bunlardan sadece bazılarıdır.'
41
+ - source_sentence: 'Contributor tools: Decrease the manual overhead of maintenance
42
+ work for teams through better tooling. Scope/Timeline: Varied, and pending additional
43
+ testing.'
44
+ sentences:
45
+ - 'Ekipmanlarımızın güvenilirliği söz konusu olduğunda, bu projenin sonuçları kendini
46
+ kanıtlıyor: Önlem olarak müşteri, proje sırasında maksimum çalışma süresini garanti
47
+ etmek için bir adet yedek azot üreten membran kiraladı, diyor Simon. Ancak bu
48
+ yedek ünite gerekli değildi; ekipmanlarımız beklediğimiz gibi mükemmel bir performans
49
+ sergiledi.'
50
+ - Daimi mükemmellik Massey Ferguson RB 3130F Protec (Protection baler & Professional
51
+ Technology), sabit odalı balya makinesinin tüm avantajlarını entegre paketleme
52
+ ünitesiyle bir araya getirerek, hareket halindeyken balyalama ve paketleme işlemi
53
+ yapılabilmesini sağlar. Balyalar değişken hava koşullarına karşı anında korunup
54
+ silaj kalitesi muhafaza edilerek, operatöre balya dizme veya taşıma ya da başka
55
+ bir tarlada hasada başlama imkanı sağlanır.
56
+ - 'İş birliği yapan araçlar: Daha iyi araçlar ile ekiplerin el ile yaptığı bakım
57
+ çalışmalarının yükünü azaltın. Kapsam/Zaman Çizelgesi: Değişken ve ek denemelerin
58
+ yapılması bekleniyor.'
59
+ - source_sentence: In addition, free Wi-Fi was provided. Thank you! Thank you for
60
+ taking the time to share your experience.
61
+ sentences:
62
+ - Bir arkadaş, akraba veya iş arkadaşı için doğru hediyeyi bulmak gerçek bir kâbus
63
+ olabilir. Bir zincir mağazada kitlesel olarak üretilmiş bir hediye satın almak
64
+ yerine, Online Star Registerda bir yıldıza isim vererek, asla unutmayacakları
65
+ bir hediye verin.
66
+ - Shareazanın Kütüphanesinde dosyalarınızı zekice düzenleme kapasitesine sahip olun.
67
+ - Teşekkürler! Deneyiminizi paylaşmak için zaman ayırdığınız için teşekkür ederiz.
68
+ Yorumunuz kısa süre içinde yayınlanacaktır.
69
+ - source_sentence: When considering what storage hardware to use in your device, dont
70
+ look only at the hardwares storage capacity. Often, the speed of the storage is
71
+ more important than its size. Devices with slow storage hardware, such as those
72
+ labeled HDD are typically slower to use than those using faster storage hardware,
73
+ such as those labeled SSD or eMMC.
74
+ sentences:
75
+ - Politika analizine giriş; temel politika yapım süreçleri modellerı; farklı politika
76
+ alanlarından seçilmiş problemlerin yapılandırılması, analizi, ve yeni politika
77
+ önerilerinin geliştirilmesi.
78
+ - Cihazınızda kullanılacak depolama donanımını düşünürken yalnızca donanımın depolama
79
+ kapasitesine bakmayın. Genellikle depolamanın hızı, boyutundan daha önemlidir.
80
+ HDD etiketli olanlar gibi yavaş depolama donanımına sahip cihazlar genellikle
81
+ SSD veya eMMC etiketli olanlar gibi daha hızlı depolama donanımı kullananlara
82
+ göre daha yavaştır.
83
+ - NETAŞ, müşterilerine geniş bant erişimi, tümleşik iletişim, ağ, siber güvenlik,
84
+ sanallaştırma, bulut bilişim, optik ve taşıyıcı Ethernet, BT entegrasyon hizmetleri,
85
+ stratejik dış kaynak kullanımı ve özel tasarlanmış yazılım geliştirme çözümleri
86
+ sağlamaktadır.
87
+ - source_sentence: Nippon Paint Garden Furniture Maintenance Oil is a high quality
88
+ maintenance oil produced with a mixture of specially selected natural oils, specially
89
+ developed for the care of hard woods such as teak, and can be applied to other
90
+ wood types.
91
+ sentences:
92
+ - HGCD kodlu Çelik bıçaklı değirmenlerimizin, HGCD 20 kodlu olanı 1993 senesinden
93
+ günümüze üretimi devam eden, Türk kahvesine ve Espresso ve Filitre öğütümüne uygun
94
+ masa üstü bir kompak, seri makinesidir. Yakın zamanda imalatına başladığımız HGCD/New-20
95
+ kodlu değirmeniz Türk kahvesi, filtre kahve ve espresso imalat ya da kullanımı
96
+ olan tüm işletmeler için uygundur. Espresso ve Filtre öğütmede kullanmak amaçlı,
97
+ yüksek kapasitede HGCD 30 kodlu ürünümüzde daha yüksek kapasitelere yöneliktir.
98
+ - Stover Gönüllü Faaliyet Ödülüne layık görülenlerin her biri, kâr amacı gütmeyen
99
+ kendi seçtiği bir kuruluşa ödenmek üzere verilen 5000 Amerikan doları değerinde
100
+ bir çeki içeren bir hatıra ödülünün yanı sıra, resmi bir törende genel başkan
101
+ ve CEO tarafından verilen özel bir takdirnameye hak kazanacaktır.
102
+ - Nippon Paint Bahçe Mobilyası Bakım Yağı, özel olarak seçilen doğal yağların karışımı
103
+ ile üretilen, özellikle teak gibi sert ahşapların bakımı için özel olarak geliştirilmiş,
104
+ diğer ahşap türlerine de uygulanabilen üstün nitelikli bakım yağıdır.
105
+ model-index:
106
+ - name: SentenceTransformer based on BAAI/bge-m3
107
+ results:
108
+ - task:
109
+ type: knowledge-distillation
110
+ name: Knowledge Distillation
111
+ dataset:
112
+ name: eval
113
+ type: eval
114
+ metrics:
115
+ - type: negative_mse
116
+ value: -0.03902269236277789
117
+ name: Negative Mse
118
+ - task:
119
+ type: translation
120
+ name: Translation
121
+ dataset:
122
+ name: eval
123
+ type: eval
124
+ metrics:
125
+ - type: src2trg_accuracy
126
+ value: 0.89505
127
+ name: Src2Trg Accuracy
128
+ - type: trg2src_accuracy
129
+ value: 0.8837
130
+ name: Trg2Src Accuracy
131
+ - type: mean_accuracy
132
+ value: 0.889375
133
+ name: Mean Accuracy
134
+ ---
135
+
136
+ # SentenceTransformer based on BAAI/bge-m3
137
+
138
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
139
+
140
+ ## Model Details
141
+
142
+ ### Model Description
143
+ - **Model Type:** Sentence Transformer
144
+ - **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision 5617a9f61b028005a4858fdac845db406aefb181 -->
145
+ - **Maximum Sequence Length:** 128 tokens
146
+ - **Output Dimensionality:** 1024 tokens
147
+ - **Similarity Function:** Cosine Similarity
148
+ <!-- - **Training Dataset:** Unknown -->
149
+ <!-- - **Language:** Unknown -->
150
+ <!-- - **License:** Unknown -->
151
+
152
+ ### Model Sources
153
+
154
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
155
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
156
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
157
+
158
+ ### Full Model Architecture
159
+
160
+ ```
161
+ SentenceTransformer(
162
+ (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
163
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
164
+ (2): Normalize()
165
+ )
166
+ ```
167
+
168
+ ## Usage
169
+
170
+ ### Direct Usage (Sentence Transformers)
171
+
172
+ First install the Sentence Transformers library:
173
+
174
+ ```bash
175
+ pip install -U sentence-transformers
176
+ ```
177
+
178
+ Then you can load this model and run inference.
179
+ ```python
180
+ from sentence_transformers import SentenceTransformer
181
+
182
+ # Download from the 🤗 Hub
183
+ model = SentenceTransformer("alperctnkaya/bge-m3-distilled-en-tr")
184
+ # Run inference
185
+ sentences = [
186
+ 'Nippon Paint Garden Furniture Maintenance Oil is a high quality maintenance oil produced with a mixture of specially selected natural oils, specially developed for the care of hard woods such as teak, and can be applied to other wood types.',
187
+ 'Nippon Paint Bahçe Mobilyası Bakım Yağı, özel olarak seçilen doğal yağların karışımı ile üretilen, özellikle teak gibi sert ahşapların bakımı için özel olarak geliştirilmiş, diğer ahşap türlerine de uygulanabilen üstün nitelikli bakım yağıdır.',
188
+ 'Stover Gönüllü Faaliyet Ödülüne layık görülenlerin her biri, kâr amacı gütmeyen kendi seçtiği bir kuruluşa ödenmek üzere verilen 5000 Amerikan doları değerinde bir çeki içeren bir hatıra ödülünün yanı sıra, resmi bir törende genel başkan ve CEO tarafından verilen özel bir takdirnameye hak kazanacaktır.',
189
+ ]
190
+ embeddings = model.encode(sentences)
191
+ print(embeddings.shape)
192
+ # [3, 1024]
193
+
194
+ # Get the similarity scores for the embeddings
195
+ similarities = model.similarity(embeddings, embeddings)
196
+ print(similarities.shape)
197
+ # [3, 3]
198
+ ```
199
+
200
+ <!--
201
+ ### Direct Usage (Transformers)
202
+
203
+ <details><summary>Click to see the direct usage in Transformers</summary>
204
+
205
+ </details>
206
+ -->
207
+
208
+ <!--
209
+ ### Downstream Usage (Sentence Transformers)
210
+
211
+ You can finetune this model on your own dataset.
212
+
213
+ <details><summary>Click to expand</summary>
214
+
215
+ </details>
216
+ -->
217
+
218
+ <!--
219
+ ### Out-of-Scope Use
220
+
221
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
222
+ -->
223
+
224
+ ## Evaluation
225
+
226
+ ### Metrics
227
+
228
+ #### Knowledge Distillation
229
+ * Dataset: `eval`
230
+ * Evaluated with [<code>MSEEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.MSEEvaluator)
231
+
232
+ | Metric | Value |
233
+ |:-----------------|:-----------|
234
+ | **negative_mse** | **-0.039** |
235
+
236
+ #### Translation
237
+ * Dataset: `eval`
238
+ * Evaluated with [<code>TranslationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TranslationEvaluator)
239
+
240
+ | Metric | Value |
241
+ |:------------------|:-----------|
242
+ | src2trg_accuracy | 0.8951 |
243
+ | trg2src_accuracy | 0.8837 |
244
+ | **mean_accuracy** | **0.8894** |
245
+
246
+ <!--
247
+ ## Bias, Risks and Limitations
248
+
249
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
250
+ -->
251
+
252
+ <!--
253
+ ### Recommendations
254
+
255
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
256
+ -->
257
+
258
+ ## Training Details
259
+
260
+ ### Training Hyperparameters
261
+ #### Non-Default Hyperparameters
262
+
263
+ - `eval_strategy`: epoch
264
+ - `per_device_train_batch_size`: 16
265
+ - `per_device_eval_batch_size`: 16
266
+ - `learning_rate`: 2e-05
267
+ - `warmup_ratio`: 0.1
268
+ - `fp16`: True
269
+
270
+ #### All Hyperparameters
271
+ <details><summary>Click to expand</summary>
272
+
273
+ - `overwrite_output_dir`: False
274
+ - `do_predict`: False
275
+ - `eval_strategy`: epoch
276
+ - `prediction_loss_only`: True
277
+ - `per_device_train_batch_size`: 16
278
+ - `per_device_eval_batch_size`: 16
279
+ - `per_gpu_train_batch_size`: None
280
+ - `per_gpu_eval_batch_size`: None
281
+ - `gradient_accumulation_steps`: 1
282
+ - `eval_accumulation_steps`: None
283
+ - `torch_empty_cache_steps`: None
284
+ - `learning_rate`: 2e-05
285
+ - `weight_decay`: 0.0
286
+ - `adam_beta1`: 0.9
287
+ - `adam_beta2`: 0.999
288
+ - `adam_epsilon`: 1e-08
289
+ - `max_grad_norm`: 1.0
290
+ - `num_train_epochs`: 3
291
+ - `max_steps`: -1
292
+ - `lr_scheduler_type`: linear
293
+ - `lr_scheduler_kwargs`: {}
294
+ - `warmup_ratio`: 0.1
295
+ - `warmup_steps`: 0
296
+ - `log_level`: passive
297
+ - `log_level_replica`: warning
298
+ - `log_on_each_node`: True
299
+ - `logging_nan_inf_filter`: True
300
+ - `save_safetensors`: True
301
+ - `save_on_each_node`: False
302
+ - `save_only_model`: False
303
+ - `restore_callback_states_from_checkpoint`: False
304
+ - `no_cuda`: False
305
+ - `use_cpu`: False
306
+ - `use_mps_device`: False
307
+ - `seed`: 42
308
+ - `data_seed`: None
309
+ - `jit_mode_eval`: False
310
+ - `use_ipex`: False
311
+ - `bf16`: False
312
+ - `fp16`: True
313
+ - `fp16_opt_level`: O1
314
+ - `half_precision_backend`: auto
315
+ - `bf16_full_eval`: False
316
+ - `fp16_full_eval`: False
317
+ - `tf32`: None
318
+ - `local_rank`: 0
319
+ - `ddp_backend`: None
320
+ - `tpu_num_cores`: None
321
+ - `tpu_metrics_debug`: False
322
+ - `debug`: []
323
+ - `dataloader_drop_last`: False
324
+ - `dataloader_num_workers`: 0
325
+ - `dataloader_prefetch_factor`: None
326
+ - `past_index`: -1
327
+ - `disable_tqdm`: False
328
+ - `remove_unused_columns`: True
329
+ - `label_names`: None
330
+ - `load_best_model_at_end`: False
331
+ - `ignore_data_skip`: False
332
+ - `fsdp`: []
333
+ - `fsdp_min_num_params`: 0
334
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
335
+ - `fsdp_transformer_layer_cls_to_wrap`: None
336
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
337
+ - `deepspeed`: None
338
+ - `label_smoothing_factor`: 0.0
339
+ - `optim`: adamw_torch
340
+ - `optim_args`: None
341
+ - `adafactor`: False
342
+ - `group_by_length`: False
343
+ - `length_column_name`: length
344
+ - `ddp_find_unused_parameters`: None
345
+ - `ddp_bucket_cap_mb`: None
346
+ - `ddp_broadcast_buffers`: False
347
+ - `dataloader_pin_memory`: True
348
+ - `dataloader_persistent_workers`: False
349
+ - `skip_memory_metrics`: True
350
+ - `use_legacy_prediction_loop`: False
351
+ - `push_to_hub`: False
352
+ - `resume_from_checkpoint`: None
353
+ - `hub_model_id`: None
354
+ - `hub_strategy`: every_save
355
+ - `hub_private_repo`: False
356
+ - `hub_always_push`: False
357
+ - `gradient_checkpointing`: False
358
+ - `gradient_checkpointing_kwargs`: None
359
+ - `include_inputs_for_metrics`: False
360
+ - `eval_do_concat_batches`: True
361
+ - `fp16_backend`: auto
362
+ - `push_to_hub_model_id`: None
363
+ - `push_to_hub_organization`: None
364
+ - `mp_parameters`:
365
+ - `auto_find_batch_size`: False
366
+ - `full_determinism`: False
367
+ - `torchdynamo`: None
368
+ - `ray_scope`: last
369
+ - `ddp_timeout`: 1800
370
+ - `torch_compile`: False
371
+ - `torch_compile_backend`: None
372
+ - `torch_compile_mode`: None
373
+ - `dispatch_batches`: None
374
+ - `split_batches`: None
375
+ - `include_tokens_per_second`: False
376
+ - `include_num_input_tokens_seen`: False
377
+ - `neftune_noise_alpha`: None
378
+ - `optim_target_modules`: None
379
+ - `batch_eval_metrics`: False
380
+ - `eval_on_start`: False
381
+ - `eval_use_gather_object`: False
382
+ - `batch_sampler`: batch_sampler
383
+ - `multi_dataset_batch_sampler`: proportional
384
+
385
+ </details>
386
+
387
+ ### Training Logs
388
+ <details><summary>Click to expand</summary>
389
+
390
+ | Epoch | Step | Training Loss | loss | eval_mean_accuracy | eval_negative_mse |
391
+ |:------:|:-----:|:-------------:|:------:|:------------------:|:-----------------:|
392
+ | 0.02 | 100 | 0.0019 | - | - | - |
393
+ | 0.04 | 200 | 0.0013 | - | - | - |
394
+ | 0.06 | 300 | 0.0008 | - | - | - |
395
+ | 0.08 | 400 | 0.0008 | - | - | - |
396
+ | 0.1 | 500 | 0.0008 | - | - | - |
397
+ | 0.12 | 600 | 0.0007 | - | - | - |
398
+ | 0.14 | 700 | 0.0007 | - | - | - |
399
+ | 0.16 | 800 | 0.0007 | - | - | - |
400
+ | 0.18 | 900 | 0.0007 | - | - | - |
401
+ | 0.2 | 1000 | 0.0007 | - | - | - |
402
+ | 0.22 | 1100 | 0.0007 | - | - | - |
403
+ | 0.24 | 1200 | 0.0006 | - | - | - |
404
+ | 0.26 | 1300 | 0.0006 | - | - | - |
405
+ | 0.28 | 1400 | 0.0006 | - | - | - |
406
+ | 0.3 | 1500 | 0.0006 | - | - | - |
407
+ | 0.32 | 1600 | 0.0006 | - | - | - |
408
+ | 0.34 | 1700 | 0.0006 | - | - | - |
409
+ | 0.36 | 1800 | 0.0006 | - | - | - |
410
+ | 0.38 | 1900 | 0.0006 | - | - | - |
411
+ | 0.4 | 2000 | 0.0006 | - | - | - |
412
+ | 0.42 | 2100 | 0.0006 | - | - | - |
413
+ | 0.44 | 2200 | 0.0006 | - | - | - |
414
+ | 0.46 | 2300 | 0.0005 | - | - | - |
415
+ | 0.48 | 2400 | 0.0005 | - | - | - |
416
+ | 0.5 | 2500 | 0.0005 | - | - | - |
417
+ | 0.52 | 2600 | 0.0005 | - | - | - |
418
+ | 0.54 | 2700 | 0.0005 | - | - | - |
419
+ | 0.56 | 2800 | 0.0005 | - | - | - |
420
+ | 0.58 | 2900 | 0.0005 | - | - | - |
421
+ | 0.6 | 3000 | 0.0005 | - | - | - |
422
+ | 0.62 | 3100 | 0.0005 | - | - | - |
423
+ | 0.64 | 3200 | 0.0005 | - | - | - |
424
+ | 0.66 | 3300 | 0.0005 | - | - | - |
425
+ | 0.68 | 3400 | 0.0005 | - | - | - |
426
+ | 0.7 | 3500 | 0.0005 | - | - | - |
427
+ | 0.72 | 3600 | 0.0005 | - | - | - |
428
+ | 0.74 | 3700 | 0.0005 | - | - | - |
429
+ | 0.76 | 3800 | 0.0005 | - | - | - |
430
+ | 0.78 | 3900 | 0.0005 | - | - | - |
431
+ | 0.8 | 4000 | 0.0005 | - | - | - |
432
+ | 0.82 | 4100 | 0.0005 | - | - | - |
433
+ | 0.84 | 4200 | 0.0005 | - | - | - |
434
+ | 0.86 | 4300 | 0.0005 | - | - | - |
435
+ | 0.88 | 4400 | 0.0005 | - | - | - |
436
+ | 0.9 | 4500 | 0.0005 | - | - | - |
437
+ | 0.92 | 4600 | 0.0005 | - | - | - |
438
+ | 0.94 | 4700 | 0.0005 | - | - | - |
439
+ | 0.96 | 4800 | 0.0005 | - | - | - |
440
+ | 0.98 | 4900 | 0.0005 | - | - | - |
441
+ | 1.0 | 5000 | 0.0005 | 0.0004 | 0.8591 | -0.0453 |
442
+ | 1.02 | 5100 | 0.0005 | - | - | - |
443
+ | 1.04 | 5200 | 0.0005 | - | - | - |
444
+ | 1.06 | 5300 | 0.0004 | - | - | - |
445
+ | 1.08 | 5400 | 0.0004 | - | - | - |
446
+ | 1.1 | 5500 | 0.0004 | - | - | - |
447
+ | 1.12 | 5600 | 0.0004 | - | - | - |
448
+ | 1.1400 | 5700 | 0.0004 | - | - | - |
449
+ | 1.16 | 5800 | 0.0004 | - | - | - |
450
+ | 1.18 | 5900 | 0.0004 | - | - | - |
451
+ | 1.2 | 6000 | 0.0004 | - | - | - |
452
+ | 1.22 | 6100 | 0.0004 | - | - | - |
453
+ | 1.24 | 6200 | 0.0004 | - | - | - |
454
+ | 1.26 | 6300 | 0.0004 | - | - | - |
455
+ | 1.28 | 6400 | 0.0004 | - | - | - |
456
+ | 1.3 | 6500 | 0.0004 | - | - | - |
457
+ | 1.32 | 6600 | 0.0004 | - | - | - |
458
+ | 1.34 | 6700 | 0.0004 | - | - | - |
459
+ | 1.3600 | 6800 | 0.0004 | - | - | - |
460
+ | 1.38 | 6900 | 0.0004 | - | - | - |
461
+ | 1.4 | 7000 | 0.0004 | - | - | - |
462
+ | 1.42 | 7100 | 0.0004 | - | - | - |
463
+ | 1.44 | 7200 | 0.0004 | - | - | - |
464
+ | 1.46 | 7300 | 0.0004 | - | - | - |
465
+ | 1.48 | 7400 | 0.0004 | - | - | - |
466
+ | 1.5 | 7500 | 0.0004 | - | - | - |
467
+ | 1.52 | 7600 | 0.0004 | - | - | - |
468
+ | 1.54 | 7700 | 0.0004 | - | - | - |
469
+ | 1.56 | 7800 | 0.0004 | - | - | - |
470
+ | 1.58 | 7900 | 0.0004 | - | - | - |
471
+ | 1.6 | 8000 | 0.0004 | - | - | - |
472
+ | 1.62 | 8100 | 0.0004 | - | - | - |
473
+ | 1.6400 | 8200 | 0.0004 | - | - | - |
474
+ | 1.6600 | 8300 | 0.0004 | - | - | - |
475
+ | 1.6800 | 8400 | 0.0004 | - | - | - |
476
+ | 1.7 | 8500 | 0.0004 | - | - | - |
477
+ | 1.72 | 8600 | 0.0004 | - | - | - |
478
+ | 1.74 | 8700 | 0.0004 | - | - | - |
479
+ | 1.76 | 8800 | 0.0004 | - | - | - |
480
+ | 1.78 | 8900 | 0.0004 | - | - | - |
481
+ | 1.8 | 9000 | 0.0004 | - | - | - |
482
+ | 1.8200 | 9100 | 0.0004 | - | - | - |
483
+ | 1.8400 | 9200 | 0.0004 | - | - | - |
484
+ | 1.8600 | 9300 | 0.0004 | - | - | - |
485
+ | 1.88 | 9400 | 0.0004 | - | - | - |
486
+ | 1.9 | 9500 | 0.0004 | - | - | - |
487
+ | 1.92 | 9600 | 0.0004 | - | - | - |
488
+ | 1.94 | 9700 | 0.0004 | - | - | - |
489
+ | 1.96 | 9800 | 0.0004 | - | - | - |
490
+ | 1.98 | 9900 | 0.0004 | - | - | - |
491
+ | 2.0 | 10000 | 0.0004 | 0.0004 | 0.8837 | -0.0405 |
492
+ | 2.02 | 10100 | 0.0004 | - | - | - |
493
+ | 2.04 | 10200 | 0.0004 | - | - | - |
494
+ | 2.06 | 10300 | 0.0004 | - | - | - |
495
+ | 2.08 | 10400 | 0.0004 | - | - | - |
496
+ | 2.1 | 10500 | 0.0004 | - | - | - |
497
+ | 2.12 | 10600 | 0.0004 | - | - | - |
498
+ | 2.14 | 10700 | 0.0004 | - | - | - |
499
+ | 2.16 | 10800 | 0.0004 | - | - | - |
500
+ | 2.18 | 10900 | 0.0004 | - | - | - |
501
+ | 2.2 | 11000 | 0.0004 | - | - | - |
502
+ | 2.22 | 11100 | 0.0004 | - | - | - |
503
+ | 2.24 | 11200 | 0.0004 | - | - | - |
504
+ | 2.26 | 11300 | 0.0004 | - | - | - |
505
+ | 2.2800 | 11400 | 0.0004 | - | - | - |
506
+ | 2.3 | 11500 | 0.0004 | - | - | - |
507
+ | 2.32 | 11600 | 0.0004 | - | - | - |
508
+ | 2.34 | 11700 | 0.0004 | - | - | - |
509
+ | 2.36 | 11800 | 0.0004 | - | - | - |
510
+ | 2.38 | 11900 | 0.0004 | - | - | - |
511
+ | 2.4 | 12000 | 0.0004 | - | - | - |
512
+ | 2.42 | 12100 | 0.0004 | - | - | - |
513
+ | 2.44 | 12200 | 0.0004 | - | - | - |
514
+ | 2.46 | 12300 | 0.0004 | - | - | - |
515
+ | 2.48 | 12400 | 0.0004 | - | - | - |
516
+ | 2.5 | 12500 | 0.0004 | - | - | - |
517
+ | 2.52 | 12600 | 0.0004 | - | - | - |
518
+ | 2.54 | 12700 | 0.0004 | - | - | - |
519
+ | 2.56 | 12800 | 0.0004 | - | - | - |
520
+ | 2.58 | 12900 | 0.0004 | - | - | - |
521
+ | 2.6 | 13000 | 0.0004 | - | - | - |
522
+ | 2.62 | 13100 | 0.0004 | - | - | - |
523
+ | 2.64 | 13200 | 0.0004 | - | - | - |
524
+ | 2.66 | 13300 | 0.0004 | - | - | - |
525
+ | 2.68 | 13400 | 0.0004 | - | - | - |
526
+ | 2.7 | 13500 | 0.0004 | - | - | - |
527
+ | 2.7200 | 13600 | 0.0004 | - | - | - |
528
+ | 2.74 | 13700 | 0.0004 | - | - | - |
529
+ | 2.76 | 13800 | 0.0004 | - | - | - |
530
+ | 2.7800 | 13900 | 0.0004 | - | - | - |
531
+ | 2.8 | 14000 | 0.0004 | - | - | - |
532
+ | 2.82 | 14100 | 0.0004 | - | - | - |
533
+ | 2.84 | 14200 | 0.0004 | - | - | - |
534
+ | 2.86 | 14300 | 0.0004 | - | - | - |
535
+ | 2.88 | 14400 | 0.0004 | - | - | - |
536
+ | 2.9 | 14500 | 0.0004 | - | - | - |
537
+ | 2.92 | 14600 | 0.0004 | - | - | - |
538
+ | 2.94 | 14700 | 0.0004 | - | - | - |
539
+ | 2.96 | 14800 | 0.0004 | - | - | - |
540
+ | 2.98 | 14900 | 0.0004 | - | - | - |
541
+ | 3.0 | 15000 | 0.0004 | 0.0004 | 0.8894 | -0.0390 |
542
+
543
+ </details>
544
+
545
+ ### Framework Versions
546
+ - Python: 3.10.12
547
+ - Sentence Transformers: 3.1.1
548
+ - Transformers: 4.44.2
549
+ - PyTorch: 2.4.1+cu121
550
+ - Accelerate: 0.34.2
551
+ - Datasets: 2.21.0
552
+ - Tokenizers: 0.19.1
553
+
554
+ ## Citation
555
+
556
+ ### BibTeX
557
+
558
+ #### Sentence Transformers
559
+ ```bibtex
560
+ @inproceedings{reimers-2019-sentence-bert,
561
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
562
+ author = "Reimers, Nils and Gurevych, Iryna",
563
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
564
+ month = "11",
565
+ year = "2019",
566
+ publisher = "Association for Computational Linguistics",
567
+ url = "https://arxiv.org/abs/1908.10084",
568
+ }
569
+ ```
570
+
571
+ #### MSELoss
572
+ ```bibtex
573
+ @inproceedings{reimers-2020-multilingual-sentence-bert,
574
+ title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation",
575
+ author = "Reimers, Nils and Gurevych, Iryna",
576
+ booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
577
+ month = "11",
578
+ year = "2020",
579
+ publisher = "Association for Computational Linguistics",
580
+ url = "https://arxiv.org/abs/2004.09813",
581
+ }
582
+ ```
583
+
584
+ <!--
585
+ ## Glossary
586
+
587
+ *Clearly define terms in order to be accessible across audiences.*
588
+ -->
589
+
590
+ <!--
591
+ ## Model Card Authors
592
+
593
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
594
+ -->
595
+
596
+ <!--
597
+ ## Model Card Contact
598
+
599
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
600
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "BAAI/bge-m3",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.44.2",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.1.1",
4
+ "transformers": "4.44.2",
5
+ "pytorch": "2.4.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f9dc459214276167920cad90d7e5e1b06871117a66e5d7e6f5804ac02ff4b607
3
+ size 2271064456
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c119aa9bc83a5d76efbbc831b23e5790727c12fde474f6519dd96cde6550ffd7
3
+ size 17083052
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 8192,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "sp_model_kwargs": {},
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }