File size: 36,647 Bytes
d495c82
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:1799998
- loss:CachedGISTEmbedLoss
base_model: x2bee/KoModernBERT-base-mlm-ecs-simcse
widget:
- source_sentence: 공용 다운 재킷은 다양한 체형과 스타일에 맞게 설계된 따뜻하고 편안한 외투이다.  재킷은 자연스러운 다운 충전재로
    보온성을 극대화하여 겨울철의 추위를 효과적으로 막아준다. 또한, 방수 기능을 갖춘 외부 소재로 제작되어  오는 날씨에도 적합하다. 캐주얼한
    디자인으로 일상생활은 물론 아웃도어 활동에도  어울린다.
  sentences:
  - 소형 세탁기는 작은 공간에서도 사용 가능하며, 빠른 세탁이 가능한 제품이다. 따라서 바쁜 일상 속에서도 쉽게 사용할  있다.  제품은 환경
    친화적인 소비를 원하는 가정에 알맞은 선택이다.
  -  재킷은 다양한 체형에  맞도록 설계되어 편안함을 제공하며, 겨울철에도 따뜻함을 유지해주는 외투이다. 방수 기능이 있어  오는 날에도
    착용할  있고, 캐주얼한 디자인으로 일상적인 활동과 아웃도어에도 적합하다.
  - 공용 다운 재킷은 모든 체형에 맞지 않으며, 추위를  막아주지 않는다. 방수 기능이 없어서  오는 날씨에는 적합하지 않으며, 디자인이 너무
    정장 스타일이라 아웃도어 활동에는 어울리지 않는다.
- source_sentence: 농구용 무릎 보호대는 농구를 하는 동안 무릎을 보호하고 부상을 예방하기 위한 장비이다.  보호대는 탄력 있는 소재로
    제작되어 착용  편안함을 주며, 무릎 관절에 가해지는 압력을 줄여준다. 또한, 운동 중에 발생할  있는 충격을 흡수하여 선수의 안전을 도모하는
     도움을 준다.
  sentences:
  - 농구를 하는 선수들에게 무릎을 안전하게 보호하고 부상을 방지하기 위해 설계된 장비가 바로 농구용 무릎 보호대이다.
  - 농구용 무릎 보호대는 농구를 하는 동안 무릎에 아무런 보호 효과도 주지 않는다.
  - 고농축 세럼은 피부의 주름을 줄이고 탄력성을 높이는  효과적이다.
- source_sentence: 러닝머신은 실내에서 안전하게 달리거나 걷기 위해 설계된 운동 기구이다. 사용자가 원하는 속도와 경사를 설정할 
    있어 개인의 운동 능력에 맞춰 조정이 가능하다. 다양한 프로그램과 기능이 탑재되어 있어 지루하지 않게 운동할  있도록 도와준다. 특히 날씨와
    상관없이 언제든지 운동할  있는 장점이 있다.
  sentences:
  - 러닝머신은 사용자가 언제든지 실내에서 운동할  있도록 돕는 장비여서, 다양한 설정을 통해 각자의 필요에 맞춰 조절할  있다.
  - 레터링 맨투맨은 편안하면서도 세련된 느낌을 주는 캐주얼한 옷으로, 다양한 메시지가 담겨 있다.
  - 러닝머신은 비가 오는 날에만 사용할  있는 운동 기구여서, 속도와 경사를 설정할  없다.
- source_sentence: 실내 농구대는 집이나 실내 공간에서 농구를 즐길  있도록 설계된 장비로, 공간을 절약하면서도 농구 연습  놀이를
    가능하게 해준다.
  sentences:
  - 헬스케어와 웰빙을 주제로  봉제 인형은 어린이들에게 스트레스를 해소하고 건강한 생활습관을 배울  있는 기회를 제공한다. 또한,  인형은
    교육적인 자료가 포함되어 있어 학습 효과를 높인다.
  - 실내 농구대는 작은 공간에서도 농구를   있게 도와주는 매우 유용한 스포츠 장비이다.
  - 실내 농구대는 외부에서만 사용할  있는 장비로, 실내에서는 사용할  없다.
- source_sentence: 다지기 기구는 재료를 효과적으로 다지고 혼합할  있는 주방 도구이다.  기구는 주로 요리  재료의 결합과 질감을
    향상시키기 위해 사용된다. 다지기 기구는 다양한 크기와 형태로 제공되어, 사용자의 필요에 맞게 선택할  있다. 이를 통해 요리의 품질을 높이고,
    조리 시간을 단축할  있다.
  sentences:
  - 다지기 기구는 재료를 혼합하지 않고 오히려 재료를 분리하는 주방 도구이다. 이는 요리를   전혀 도움이 되지 않는다.
  - 하드캔디는 설탕이나 시럽으로 만든 단단한 과자이며, 여러 가지 맛과 색을 갖고 있어 오랫동안 즐길  있다.  과자는 간식이나 선물용으로
    많이 사용되며, 아이들과 성인들 모두에게 인기가 있다.
  - 다지기 기구는 음식을 조리할  재료를  섞고 부드럽게 만드는  도움을 주는 필수 주방 도구이다. 이는 요리의 맛과 질을 개선하고, 요리
    과정을 보다 효율적으로 만들어 준다.
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- cosine_accuracy
model-index:
- name: SentenceTransformer based on x2bee/KoModernBERT-base-mlm-ecs-simcse
  results:
  - task:
      type: triplet
      name: Triplet
    dataset:
      name: test triplet
      type: test_triplet
    metrics:
    - type: cosine_accuracy
      value: 0.9791250228881836
      name: Cosine Accuracy
---

# SentenceTransformer based on x2bee/KoModernBERT-base-mlm-ecs-simcse

This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [x2bee/KoModernBERT-base-mlm-ecs-simcse](https://huggingface.co/x2bee/KoModernBERT-base-mlm-ecs-simcse). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

## Model Details

### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [x2bee/KoModernBERT-base-mlm-ecs-simcse](https://huggingface.co/x2bee/KoModernBERT-base-mlm-ecs-simcse) <!-- at revision 0620f5cd999b4ade4e93c107a4edc32067fd7470 -->
- **Maximum Sequence Length:** 2048 tokens
- **Output Dimensionality:** 768 dimensions
- **Similarity Function:** Cosine Similarity
<!-- - **Training Dataset:** Unknown -->
<!-- - **Language:** Unknown -->
<!-- - **License:** Unknown -->

### Model Sources

- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)

### Full Model Architecture

```
SentenceTransformer(
  (0): Transformer({'max_seq_length': 2048, 'do_lower_case': False}) with Transformer model: ModernBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Dense({'in_features': 768, 'out_features': 768, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
)
```

## Usage

### Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

```bash
pip install -U sentence-transformers
```

Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("x2bee/ModernBERT-ecs-GIST")
# Run inference
sentences = [
    '다지기 기구는 재료를 효과적으로 다지고 혼합할 수 있는 주방 도구이다. 이 기구는 주로 요리 시 재료의 결합과 질감을 향상시키기 위해 사용된다. 다지기 기구는 다양한 크기와 형태로 제공되어, 사용자의 필요에 맞게 선택할 수 있다. 이를 통해 요리의 품질을 높이고, 조리 시간을 단축할 수 있다.',
    '다지기 기구는 음식을 조리할 때 재료를 잘 섞고 부드럽게 만드는 데 도움을 주는 필수 주방 도구이다. 이는 요리의 맛과 질을 개선하고, 요리 과정을 보다 효율적으로 만들어 준다.',
    '다지기 기구는 재료를 혼합하지 않고 오히려 재료를 분리하는 주방 도구이다. 이는 요리를 할 때 전혀 도움이 되지 않는다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```

<!--
### Direct Usage (Transformers)

<details><summary>Click to see the direct usage in Transformers</summary>

</details>
-->

<!--
### Downstream Usage (Sentence Transformers)

You can finetune this model on your own dataset.

<details><summary>Click to expand</summary>

</details>
-->

<!--
### Out-of-Scope Use

*List how the model may foreseeably be misused and address what users ought not to do with the model.*
-->

## Evaluation

### Metrics

#### Triplet

* Dataset: `test_triplet`
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)

| Metric              | Value      |
|:--------------------|:-----------|
| **cosine_accuracy** | **0.9791** |

<!--
## Bias, Risks and Limitations

*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
-->

<!--
### Recommendations

*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
-->

## Training Details

### Training Dataset

#### Unnamed Dataset

* Size: 1,799,998 training samples
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
* Approximate statistics based on the first 1000 samples:
  |         | anchor                                                                              | positive                                                                            | negative                                                                            |
  |:--------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
  | type    | string                                                                              | string                                                                              | string                                                                              |
  | details | <ul><li>min: 17 tokens</li><li>mean: 70.96 tokens</li><li>max: 152 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 53.97 tokens</li><li>max: 153 tokens</li></ul> | <ul><li>min: 14 tokens</li><li>mean: 49.48 tokens</li><li>max: 150 tokens</li></ul> |
* Samples:
  | anchor                                                                                | positive                                                                       | negative                                                     |
  |:--------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------|:-------------------------------------------------------------|
  | <code>주방 수납 용품은 주방 내에서 조리 도구, 식기 및 기타 용품을 효율적으로 정리하고 보관할 수 있도록 도와주는 다양한 제품들이다.</code> | <code>주방용품은 요리 도구와 식기 같은 물건들을 잘 정리하고 저장하기 위해 여러 가지 방식으로 디자인된 제품이다.</code>      | <code>주방 수납 용품은 조리 도구나 식기를 정리하는 데 전혀 도움이 되지 않는 제품들이다.</code> |
  | <code>이염 방지 용품은 다양한 소재의 제품에서 발생할 수 있는 이염을 예방하기 위한 용품이다.</code>                        | <code>이염 방지 용품은 여러 가지 재료로 만들어진 제품에서 발생할 수 있는 색이 번지는 현상을 막기 위해 만들어진 것이다.</code> | <code>이염 방지 용품은 오직 단일한 소재의 제품에서만 사용할 수 있다.</code>            |
  | <code>차량 핸들 커버는 자동차 핸들을 보호하고 미끄럼을 방지하며, 더욱 편안한 그립감을 제공하는 제품이다.</code>                 | <code>자동차 핸들을 덮는 커버는 핸들의 마모를 방지하고, 운전 시 지탱력을 높이며, 쥐는 느낌을 향상시키는 용품이다.</code>    | <code>차량 핸들 커버는 핸들을 보호하지 않으며, 미끄럼을 방지하는 기능이 없다.</code>       |
* Loss: [<code>CachedGISTEmbedLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedgistembedloss) with these parameters:
  ```json
  {'guide': SentenceTransformer(
    (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
    (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
    (2): Normalize()
  ), 'temperature': 0.01}
  ```

### Evaluation Dataset

#### Unnamed Dataset

* Size: 200,000 evaluation samples
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
* Approximate statistics based on the first 1000 samples:
  |         | anchor                                                                              | positive                                                                            | negative                                                                            |
  |:--------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
  | type    | string                                                                              | string                                                                              | string                                                                              |
  | details | <ul><li>min: 18 tokens</li><li>mean: 70.19 tokens</li><li>max: 151 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 53.27 tokens</li><li>max: 155 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 48.68 tokens</li><li>max: 138 tokens</li></ul> |
* Samples:
  | anchor                                                                                             | positive                                                                                  | negative                                                                       |
  |:---------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------|
  | <code>다중지능 평가 도구는 개인의 다양한 지능 유형을 평가하여 강점과 약점을 파악하는 데 도움을 주는 도구이다.</code>                           | <code>다중지능 평가 도구는 각 개인이 가진 여러 지능의 특징을 분석하여 이들의 장단점을 이해하도록 도와주는 기구다.</code>                | <code>다중지능 평가 도구는 개인의 지능 유형을 전혀 평가하지 못하는 도구이다.</code>                          |
  | <code>데이터베이스 설계에 관한 책은 데이터베이스 구조와 설계 원칙을 설명하는 참고서로, 효과적인 데이터 저장 및 관리 방법을 제시한다.</code>              | <code>책에 담긴 내용은 데이터베이스의 설계 및 구조화 방식에 대한 정보를 제공하며, 이는 데이터의 효율적인 저장과 관리를 위한 기초 지식이다.</code> | <code>이 책은 데이터베이스 설계와 관련된 내용을 포함하고 있지 않으며, 효과적인 데이터 저장 방법을 전혀 언급하지 않는다.</code> |
  | <code>14K, 18K 코티체 사각 컷팅 귀걸이는 고급스러운 14K 또는 18K 금으로 제작된 귀걸이로, 사각 형태의 컷팅 디자인이 특징인 세련된 액세서리이다.</code> | <code>세련된 디자인과 고급 재료로 만들어진 귀걸이는 14K 또는 18K 금으로 제작된 사각 컷 악세서리이다.</code>                    | <code>14K 또는 18K 금으로 만들어진 컷팅이 없는 귀걸이는 고급스럽지 않다.</code>                         |
* Loss: [<code>CachedGISTEmbedLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedgistembedloss) with these parameters:
  ```json
  {'guide': SentenceTransformer(
    (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
    (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
    (2): Normalize()
  ), 'temperature': 0.01}
  ```

### Training Hyperparameters
#### Non-Default Hyperparameters

- `overwrite_output_dir`: True
- `eval_strategy`: steps
- `per_device_train_batch_size`: 4096
- `per_device_eval_batch_size`: 16
- `learning_rate`: 1e-05
- `warmup_ratio`: 0.2
- `push_to_hub`: True
- `hub_model_id`: x2bee/ModernBERT-ecs-GIST
- `hub_strategy`: checkpoint
- `batch_sampler`: no_duplicates

#### All Hyperparameters
<details><summary>Click to expand</summary>

- `overwrite_output_dir`: True
- `do_predict`: False
- `eval_strategy`: steps
- `prediction_loss_only`: True
- `per_device_train_batch_size`: 4096
- `per_device_eval_batch_size`: 16
- `per_gpu_train_batch_size`: None
- `per_gpu_eval_batch_size`: None
- `gradient_accumulation_steps`: 1
- `eval_accumulation_steps`: None
- `torch_empty_cache_steps`: None
- `learning_rate`: 1e-05
- `weight_decay`: 0.0
- `adam_beta1`: 0.9
- `adam_beta2`: 0.999
- `adam_epsilon`: 1e-08
- `max_grad_norm`: 1.0
- `num_train_epochs`: 3.0
- `max_steps`: -1
- `lr_scheduler_type`: linear
- `lr_scheduler_kwargs`: {}
- `warmup_ratio`: 0.2
- `warmup_steps`: 0
- `log_level`: passive
- `log_level_replica`: warning
- `log_on_each_node`: True
- `logging_nan_inf_filter`: True
- `save_safetensors`: True
- `save_on_each_node`: False
- `save_only_model`: False
- `restore_callback_states_from_checkpoint`: False
- `no_cuda`: False
- `use_cpu`: False
- `use_mps_device`: False
- `seed`: 42
- `data_seed`: None
- `jit_mode_eval`: False
- `use_ipex`: False
- `bf16`: False
- `fp16`: False
- `fp16_opt_level`: O1
- `half_precision_backend`: auto
- `bf16_full_eval`: False
- `fp16_full_eval`: False
- `tf32`: None
- `local_rank`: 0
- `ddp_backend`: None
- `tpu_num_cores`: None
- `tpu_metrics_debug`: False
- `debug`: []
- `dataloader_drop_last`: True
- `dataloader_num_workers`: 0
- `dataloader_prefetch_factor`: None
- `past_index`: -1
- `disable_tqdm`: False
- `remove_unused_columns`: True
- `label_names`: None
- `load_best_model_at_end`: False
- `ignore_data_skip`: False
- `fsdp`: []
- `fsdp_min_num_params`: 0
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
- `fsdp_transformer_layer_cls_to_wrap`: None
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
- `deepspeed`: None
- `label_smoothing_factor`: 0.0
- `optim`: adamw_torch
- `optim_args`: None
- `adafactor`: False
- `group_by_length`: False
- `length_column_name`: length
- `ddp_find_unused_parameters`: None
- `ddp_bucket_cap_mb`: None
- `ddp_broadcast_buffers`: False
- `dataloader_pin_memory`: True
- `dataloader_persistent_workers`: False
- `skip_memory_metrics`: True
- `use_legacy_prediction_loop`: False
- `push_to_hub`: True
- `resume_from_checkpoint`: None
- `hub_model_id`: x2bee/ModernBERT-ecs-GIST
- `hub_strategy`: checkpoint
- `hub_private_repo`: None
- `hub_always_push`: False
- `gradient_checkpointing`: False
- `gradient_checkpointing_kwargs`: None
- `include_inputs_for_metrics`: False
- `include_for_metrics`: []
- `eval_do_concat_batches`: True
- `fp16_backend`: auto
- `push_to_hub_model_id`: None
- `push_to_hub_organization`: None
- `mp_parameters`: 
- `auto_find_batch_size`: False
- `full_determinism`: False
- `torchdynamo`: None
- `ray_scope`: last
- `ddp_timeout`: 1800
- `torch_compile`: False
- `torch_compile_backend`: None
- `torch_compile_mode`: None
- `dispatch_batches`: None
- `split_batches`: None
- `include_tokens_per_second`: False
- `include_num_input_tokens_seen`: False
- `neftune_noise_alpha`: None
- `optim_target_modules`: None
- `batch_eval_metrics`: False
- `eval_on_start`: False
- `use_liger_kernel`: False
- `eval_use_gather_object`: False
- `average_tokens_across_devices`: False
- `prompts`: None
- `batch_sampler`: no_duplicates
- `multi_dataset_batch_sampler`: proportional

</details>

### Training Logs
<details><summary>Click to expand</summary>

| Epoch  | Step | Training Loss | Validation Loss | test_triplet_cosine_accuracy |
|:------:|:----:|:-------------:|:---------------:|:----------------------------:|
| 0.0185 | 1    | 2.3684        | -               | -                            |
| 0.0370 | 2    | 2.3889        | -               | -                            |
| 0.0556 | 3    | 2.3838        | -               | -                            |
| 0.0741 | 4    | 2.3771        | -               | -                            |
| 0.0926 | 5    | 2.3611        | -               | -                            |
| 0.1111 | 6    | 2.3567        | -               | -                            |
| 0.1296 | 7    | 2.3447        | -               | -                            |
| 0.1481 | 8    | 2.3366        | -               | -                            |
| 0.1667 | 9    | 2.2655        | -               | -                            |
| 0.1852 | 10   | 2.2951        | -               | -                            |
| 0.2037 | 11   | 2.2416        | -               | -                            |
| 0.2222 | 12   | 2.2242        | -               | -                            |
| 0.2407 | 13   | 2.1981        | -               | -                            |
| 0.2593 | 14   | 2.1923        | -               | -                            |
| 0.2778 | 15   | 2.0876        | -               | -                            |
| 0.2963 | 16   | 2.0796        | -               | -                            |
| 0.3148 | 17   | 2.0372        | -               | -                            |
| 0.3333 | 18   | 1.9932        | -               | -                            |
| 0.3519 | 19   | 1.9682        | -               | -                            |
| 0.3704 | 20   | 1.9146        | -               | -                            |
| 0.3889 | 21   | 1.8736        | -               | -                            |
| 0.4074 | 22   | 1.8396        | -               | -                            |
| 0.4259 | 23   | 1.7937        | -               | -                            |
| 0.4444 | 24   | 1.7365        | -               | -                            |
| 0.4630 | 25   | 1.6928        | 0.1195          | 0.9867                       |
| 0.4815 | 26   | 1.6248        | -               | -                            |
| 0.5    | 27   | 1.5888        | -               | -                            |
| 0.5185 | 28   | 1.5364        | -               | -                            |
| 0.5370 | 29   | 1.4799        | -               | -                            |
| 0.5556 | 30   | 1.4308        | -               | -                            |
| 0.5741 | 31   | 1.3976        | -               | -                            |
| 0.5926 | 32   | 1.3449        | -               | -                            |
| 0.6111 | 33   | 1.3078        | -               | -                            |
| 0.6296 | 34   | 1.2954        | -               | -                            |
| 0.6481 | 35   | 1.2216        | -               | -                            |
| 0.6667 | 36   | 1.15          | -               | -                            |
| 0.6852 | 37   | 1.1438        | -               | -                            |
| 0.7037 | 38   | 1.1094        | -               | -                            |
| 0.7222 | 39   | 1.0956        | -               | -                            |
| 0.7407 | 40   | 1.0417        | -               | -                            |
| 0.7593 | 41   | 1.0168        | -               | -                            |
| 0.7778 | 42   | 0.9877        | -               | -                            |
| 0.7963 | 43   | 0.98          | -               | -                            |
| 0.8148 | 44   | 0.9519        | -               | -                            |
| 0.8333 | 45   | 0.9394        | -               | -                            |
| 0.8519 | 46   | 0.9178        | -               | -                            |
| 0.8704 | 47   | 0.8871        | -               | -                            |
| 0.8889 | 48   | 0.8571        | -               | -                            |
| 0.9074 | 49   | 0.8474        | -               | -                            |
| 0.9259 | 50   | 0.8474        | 0.0262          | 0.9856                       |
| 0.9444 | 51   | 0.8348        | -               | -                            |
| 0.9630 | 52   | 0.8005        | -               | -                            |
| 0.9815 | 53   | 0.7889        | -               | -                            |
| 1.0    | 54   | 0.7706        | -               | -                            |
| 1.0185 | 55   | 0.7546        | -               | -                            |
| 1.0370 | 56   | 0.7205        | -               | -                            |
| 1.0556 | 57   | 0.7285        | -               | -                            |
| 1.0741 | 58   | 0.7147        | -               | -                            |
| 1.0926 | 59   | 0.6896        | -               | -                            |
| 1.1111 | 60   | 0.6798        | -               | -                            |
| 1.1296 | 61   | 0.6816        | -               | -                            |
| 1.1481 | 62   | 0.6665        | -               | -                            |
| 1.1667 | 63   | 0.6676        | -               | -                            |
| 1.1852 | 64   | 0.6518        | -               | -                            |
| 1.2037 | 65   | 0.6523        | -               | -                            |
| 1.2222 | 66   | 0.6249        | -               | -                            |
| 1.2407 | 67   | 0.6133        | -               | -                            |
| 1.2593 | 68   | 0.6274        | -               | -                            |
| 1.2778 | 69   | 0.6034        | -               | -                            |
| 1.2963 | 70   | 0.5967        | -               | -                            |
| 1.3148 | 71   | 0.5882        | -               | -                            |
| 1.3333 | 72   | 0.5757        | -               | -                            |
| 1.3519 | 73   | 0.5616        | -               | -                            |
| 1.3704 | 74   | 0.5584        | -               | -                            |
| 1.3889 | 75   | 0.5554        | 0.0191          | 0.9775                       |
| 1.4074 | 76   | 0.5543        | -               | -                            |
| 1.4259 | 77   | 0.5404        | -               | -                            |
| 1.4444 | 78   | 0.5539        | -               | -                            |
| 1.4630 | 79   | 0.5371        | -               | -                            |
| 1.4815 | 80   | 0.5338        | -               | -                            |
| 1.5    | 81   | 0.5098        | -               | -                            |
| 1.5185 | 82   | 0.5045        | -               | -                            |
| 1.5370 | 83   | 0.5008        | -               | -                            |
| 1.5556 | 84   | 0.4976        | -               | -                            |
| 1.5741 | 85   | 0.4865        | -               | -                            |
| 1.5926 | 86   | 0.4706        | -               | -                            |
| 1.6111 | 87   | 0.465         | -               | -                            |
| 1.6296 | 88   | 0.4729        | -               | -                            |
| 1.6481 | 89   | 0.4575        | -               | -                            |
| 1.6667 | 90   | 0.4516        | -               | -                            |
| 1.6852 | 91   | 0.453         | -               | -                            |
| 1.7037 | 92   | 0.4306        | -               | -                            |
| 1.7222 | 93   | 0.434         | -               | -                            |
| 1.7407 | 94   | 0.4321        | -               | -                            |
| 1.7593 | 95   | 0.4227        | -               | -                            |
| 1.7778 | 96   | 0.4186        | -               | -                            |
| 1.7963 | 97   | 0.4022        | -               | -                            |
| 1.8148 | 98   | 0.4057        | -               | -                            |
| 1.8333 | 99   | 0.4018        | -               | -                            |
| 1.8519 | 100  | 0.3852        | 0.0139          | 0.9753                       |
| 1.8704 | 101  | 0.389         | -               | -                            |
| 1.8889 | 102  | 0.3801        | -               | -                            |
| 1.9074 | 103  | 0.3896        | -               | -                            |
| 1.9259 | 104  | 0.3759        | -               | -                            |
| 1.9444 | 105  | 0.3614        | -               | -                            |
| 1.9630 | 106  | 0.3616        | -               | -                            |
| 1.9815 | 107  | 0.3422        | -               | -                            |
| 2.0    | 108  | 0.3516        | -               | -                            |
| 2.0185 | 109  | 0.3507        | -               | -                            |
| 2.0370 | 110  | 0.3387        | -               | -                            |
| 2.0556 | 111  | 0.343         | -               | -                            |
| 2.0741 | 112  | 0.3335        | -               | -                            |
| 2.0926 | 113  | 0.3356        | -               | -                            |
| 2.1111 | 114  | 0.3262        | -               | -                            |
| 2.1296 | 115  | 0.3236        | -               | -                            |
| 2.1481 | 116  | 0.3201        | -               | -                            |
| 2.1667 | 117  | 0.3267        | -               | -                            |
| 2.1852 | 118  | 0.3148        | -               | -                            |
| 2.2037 | 119  | 0.3106        | -               | -                            |
| 2.2222 | 120  | 0.3033        | -               | -                            |
| 2.2407 | 121  | 0.3065        | -               | -                            |
| 2.2593 | 122  | 0.3144        | -               | -                            |
| 2.2778 | 123  | 0.3038        | -               | -                            |
| 2.2963 | 124  | 0.2964        | -               | -                            |
| 2.3148 | 125  | 0.2815        | 0.0107          | 0.9766                       |
| 2.3333 | 126  | 0.2997        | -               | -                            |
| 2.3519 | 127  | 0.2863        | -               | -                            |
| 2.3704 | 128  | 0.2809        | -               | -                            |
| 2.3889 | 129  | 0.2786        | -               | -                            |
| 2.4074 | 130  | 0.2878        | -               | -                            |
| 2.4259 | 131  | 0.2736        | -               | -                            |
| 2.4444 | 132  | 0.2786        | -               | -                            |
| 2.4630 | 133  | 0.2695        | -               | -                            |
| 2.4815 | 134  | 0.2731        | -               | -                            |
| 2.5    | 135  | 0.2721        | -               | -                            |
| 2.5185 | 136  | 0.2681        | -               | -                            |
| 2.5370 | 137  | 0.2689        | -               | -                            |
| 2.5556 | 138  | 0.2545        | -               | -                            |
| 2.5741 | 139  | 0.2617        | -               | -                            |
| 2.5926 | 140  | 0.2633        | -               | -                            |
| 2.6111 | 141  | 0.2523        | -               | -                            |
| 2.6296 | 142  | 0.2518        | -               | -                            |
| 2.6481 | 143  | 0.2576        | -               | -                            |
| 2.6667 | 144  | 0.2596        | -               | -                            |
| 2.6852 | 145  | 0.2537        | -               | -                            |
| 2.7037 | 146  | 0.2542        | -               | -                            |
| 2.7222 | 147  | 0.2476        | -               | -                            |
| 2.7407 | 148  | 0.2397        | -               | -                            |
| 2.7593 | 149  | 0.2448        | -               | -                            |
| 2.7778 | 150  | 0.2431        | 0.0084          | 0.9791                       |
| 2.7963 | 151  | 0.2408        | -               | -                            |
| 2.8148 | 152  | 0.2394        | -               | -                            |
| 2.8333 | 153  | 0.2317        | -               | -                            |
| 2.8519 | 154  | 0.2367        | -               | -                            |
| 2.8704 | 155  | 0.2375        | -               | -                            |
| 2.8889 | 156  | 0.2351        | -               | -                            |
| 2.9074 | 157  | 0.2448        | -               | -                            |
| 2.9259 | 158  | 0.229         | -               | -                            |
| 2.9444 | 159  | 0.2274        | -               | -                            |
| 2.9630 | 160  | 0.2313        | -               | -                            |
| 2.9815 | 161  | 0.2269        | -               | -                            |
| 3.0    | 162  | 0.2298        | -               | -                            |

</details>

### Framework Versions
- Python: 3.11.10
- Sentence Transformers: 3.4.1
- Transformers: 4.49.0
- PyTorch: 2.5.1+cu124
- Accelerate: 1.4.0
- Datasets: 3.3.2
- Tokenizers: 0.21.0

## Citation

### BibTeX

#### Sentence Transformers
```bibtex
@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
```

<!--
## Glossary

*Clearly define terms in order to be accessible across audiences.*
-->

<!--
## Model Card Authors

*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
-->

<!--
## Model Card Contact

*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
-->