strongpear commited on
Commit
90b4f91
·
verified ·
1 Parent(s): 9447555

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,407 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:2790
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: BAAI/bge-m3
10
+ widget:
11
+ - source_sentence: Cần làm gì để đảm bảo lắp đặt thiết bị đúng tiêu chuẩn?
12
+ sentences:
13
+ - Nhà thầu phải thu dọn, làm sạch và hoàn trả mặt bằng thi công, đồng thời di chuyển
14
+ toàn bộ máy móc thiết bị và nguyên vật liệu đã sử dụng ra khỏi khu vực thi công.
15
+ - Việc lắp đặt thiết bị phải tuân theo quy trình kỹ thuật của nhà sản xuất và thực
16
+ hiện kiểm tra các thông số kỹ thuật thực tế với thông tin công bố trong catalog
17
+ và các tài liệu kỹ thuật của hãng sản xuất.
18
+ - Người dùng được cung cấp chức năng 'Quên mật khẩu' để lấy lại mật khẩu địa chỉ
19
+ hòm thư của mình.
20
+ - source_sentence: Những yêu cầu nào phải được đáp ứng khi vận chuyển hàng hóa?
21
+ sentences:
22
+ - Sau thời hạn 30 ngày kể từ ngày phát sinh tranh chấp, Các Bên có quyền đưa tranh
23
+ chấp ra giải quyết tại Tòa án có thẩm quyền của Việt Nam.
24
+ - Hàng hóa nhà thầu khi bàn giao cho Chủ đầu tư phải đảm bảo nguyên vẹn theo quy
25
+ cách hàng hoá trước khi vận chuyển; không bị móp méo, dập, nát, gãy, vỡ, biến
26
+ dạng hoặc thiếu hụt.
27
+ - Máy tính data Server 1 (PC0201 - CIS 1) được rà soát lỗ hổng bảo mật nhiều nhất,
28
+ với 8 lượt rà soát.
29
+ - source_sentence: Hợp đồng chịu sự điều chỉnh bởi hệ thống pháp luật nào?
30
+ sentences:
31
+ - Nghị định số 63/2014/NĐ-CP ngày 26/6/2014 của Chính phủ quy định chi tiết thi
32
+ hành một số điều của Luật Đấu thầu về lựa chọn nhà thầu.
33
+ - Hợp đồng chịu sự điều chỉnh của hệ thống Pháp luật của Nước Cộng hòa xã hội Chủ
34
+ nghĩa Việt Nam.
35
+ - Hàng hóa cần được kiểm tra chi tiết, đối chiếu thông số kỹ thuật với catalog và
36
+ tài liệu kỹ thuật của hãng, đồng thời kiểm tra an ninh, an toàn theo quy định
37
+ của Bên mời thầu.
38
+ - source_sentence: Quản lý báo cáo tuần có chức năng gì để xử lý các báo cáo hiện
39
+ tại?
40
+ sentences:
41
+ - Trong chức năng bảo mật thông tin liên lạc, thiết bị cho phép mã hóa thông tin,
42
+ dữ liệu trước khi truyền đưa, trao đổi qua môi trường mạng.
43
+ - Hợp đồng chịu sự điều chỉnh của hệ thống Pháp luật của Nước Cộng hòa xã hội Chủ
44
+ nghĩa Việt Nam.
45
+ - 'Quản lý báo cáo tuần cho phép thực hiện nhiều chức năng như: tìm kiếm, xuất excel,
46
+ thêm mới, sửa, xóa, in, gửi và tổng hợp báo cáo tuần theo khoảng tuần.'
47
+ - source_sentence: Quản lý uống vitamin A bao gồm những chức năng nào?
48
+ sentences:
49
+ - Quản lý uống vitamin A bao gồm lập kế hoạch, tìm kiếm kế hoạch, xóa kế hoạch và
50
+ xem danh sách chi tiết các thông tin liên quan đến việc uống vitamin A cho trẻ
51
+ em, phụ nữ.
52
+ - Nhân sự rà soát mã độc phải có kinh nghiệm 05 năm hoặc đã thực hiện 02 hợp đồng
53
+ tương tự.
54
+ - Mục tiêu chính là duy trì và vận hành hệ thống camera an ninh và camera giám sát
55
+ giao thông trong huyện Bắc Trà My, tỉnh Quảng Nam.
56
+ pipeline_tag: sentence-similarity
57
+ library_name: sentence-transformers
58
+ ---
59
+
60
+ # SentenceTransformer based on BAAI/bge-m3
61
+
62
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
63
+
64
+ ## Model Details
65
+
66
+ ### Model Description
67
+ - **Model Type:** Sentence Transformer
68
+ - **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision 5617a9f61b028005a4858fdac845db406aefb181 -->
69
+ - **Maximum Sequence Length:** 8192 tokens
70
+ - **Output Dimensionality:** 1024 dimensions
71
+ - **Similarity Function:** Cosine Similarity
72
+ <!-- - **Training Dataset:** Unknown -->
73
+ <!-- - **Language:** Unknown -->
74
+ <!-- - **License:** Unknown -->
75
+
76
+ ### Model Sources
77
+
78
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
79
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
80
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
81
+
82
+ ### Full Model Architecture
83
+
84
+ ```
85
+ SentenceTransformer(
86
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
87
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
88
+ (2): Normalize()
89
+ )
90
+ ```
91
+
92
+ ## Usage
93
+
94
+ ### Direct Usage (Sentence Transformers)
95
+
96
+ First install the Sentence Transformers library:
97
+
98
+ ```bash
99
+ pip install -U sentence-transformers
100
+ ```
101
+
102
+ Then you can load this model and run inference.
103
+ ```python
104
+ from sentence_transformers import SentenceTransformer
105
+
106
+ # Download from the 🤗 Hub
107
+ model = SentenceTransformer("strongpear/M3-retriever-vCRM_test")
108
+ # Run inference
109
+ sentences = [
110
+ 'Quản lý uống vitamin A bao gồm những chức năng nào?',
111
+ 'Quản lý uống vitamin A bao gồm lập kế hoạch, tìm kiếm kế hoạch, xóa kế hoạch và xem danh sách chi tiết các thông tin liên quan đến việc uống vitamin A cho trẻ em, phụ nữ.',
112
+ 'Mục tiêu chính là duy trì và vận hành hệ thống camera an ninh và camera giám sát giao thông trong huyện Bắc Trà My, tỉnh Quảng Nam.',
113
+ ]
114
+ embeddings = model.encode(sentences)
115
+ print(embeddings.shape)
116
+ # [3, 1024]
117
+
118
+ # Get the similarity scores for the embeddings
119
+ similarities = model.similarity(embeddings, embeddings)
120
+ print(similarities.shape)
121
+ # [3, 3]
122
+ ```
123
+
124
+ <!--
125
+ ### Direct Usage (Transformers)
126
+
127
+ <details><summary>Click to see the direct usage in Transformers</summary>
128
+
129
+ </details>
130
+ -->
131
+
132
+ <!--
133
+ ### Downstream Usage (Sentence Transformers)
134
+
135
+ You can finetune this model on your own dataset.
136
+
137
+ <details><summary>Click to expand</summary>
138
+
139
+ </details>
140
+ -->
141
+
142
+ <!--
143
+ ### Out-of-Scope Use
144
+
145
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
146
+ -->
147
+
148
+ <!--
149
+ ## Bias, Risks and Limitations
150
+
151
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
152
+ -->
153
+
154
+ <!--
155
+ ### Recommendations
156
+
157
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
158
+ -->
159
+
160
+ ## Training Details
161
+
162
+ ### Training Dataset
163
+
164
+ #### Unnamed Dataset
165
+
166
+ * Size: 2,790 training samples
167
+ * Columns: <code>anchor</code> and <code>positive</code>
168
+ * Approximate statistics based on the first 1000 samples:
169
+ | | anchor | positive |
170
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
171
+ | type | string | string |
172
+ | details | <ul><li>min: 10 tokens</li><li>mean: 18.59 tokens</li><li>max: 30 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 38.2 tokens</li><li>max: 114 tokens</li></ul> |
173
+ * Samples:
174
+ | anchor | positive |
175
+ |:------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------|
176
+ | <code>Điều kiện bên B bị phạt về chất lượng là gì?</code> | <code>Bên B bị phạt 1% giá trị hợp đồng nếu vi phạm về chất lượng theo quy định trong hợp đồng.</code> |
177
+ | <code>Sound card hỗ trợ mấy chế độ tùy chọn thông qua phím điều khiển?</code> | <code>Sound card hỗ trợ 4 chế độ tùy chọn thông qua phím nhấn điều khiển: Music, Chat, Sing, MC.</code> |
178
+ | <code>Ai là người đại diện của Viettel trong hợp đồng này?</code> | <code>Ông Nguyễn Chí Thanh, giữ chức vụ Phó Tổng Giám Đốc Tổng Công ty Giải pháp Doanh nghiệp Viettel.</code> |
179
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
180
+ ```json
181
+ {
182
+ "scale": 20.0,
183
+ "similarity_fct": "cos_sim"
184
+ }
185
+ ```
186
+
187
+ ### Evaluation Dataset
188
+
189
+ #### Unnamed Dataset
190
+
191
+ * Size: 147 evaluation samples
192
+ * Columns: <code>anchor</code> and <code>positive</code>
193
+ * Approximate statistics based on the first 147 samples:
194
+ | | anchor | positive |
195
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
196
+ | type | string | string |
197
+ | details | <ul><li>min: 12 tokens</li><li>mean: 18.54 tokens</li><li>max: 29 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 40.46 tokens</li><li>max: 83 tokens</li></ul> |
198
+ * Samples:
199
+ | anchor | positive |
200
+ |:----------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
201
+ | <code>Thời gian tối đa để Viettel hoàn thành khởi tạo dịch vụ sau khi thanh toán là bao lâu?</code> | <code>Viettel sẽ hoàn thành việc khởi tạo Dịch vụ cho Khách hàng trong vòng tối đa 03 (ba) ngày làm việc kể từ ngày Khách hàng thanh toán đầy đủ phí Dịch vụ cho chu kỳ thanh toán đầu tiên và hoàn thành xác minh thông tin Khách hàng.</code> |
202
+ | <code>Bộ vi xử lý này có bao nhiêu lõi (cores) và luồng (threads)?</code> | <code>Bộ vi xử lý Intel® Core™ i5 12400 có 6 lõi (cores) và 12 luồng (threads).</code> |
203
+ | <code>Hệ thống cung cấp những mẫu báo cáo nào liên quan đến HIV?</code> | <code>Hệ thống cung cấp các mẫu báo cáo như C03 năm, C03 quý, chỉ số tiến độ, Lao – HIV, MER, duy trì điều trị và bảo hiểm y tế.</code> |
204
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
205
+ ```json
206
+ {
207
+ "scale": 20.0,
208
+ "similarity_fct": "cos_sim"
209
+ }
210
+ ```
211
+
212
+ ### Training Hyperparameters
213
+ #### Non-Default Hyperparameters
214
+
215
+ - `eval_strategy`: steps
216
+ - `per_device_train_batch_size`: 32
217
+ - `per_device_eval_batch_size`: 32
218
+ - `warmup_ratio`: 0.1
219
+ - `bf16`: True
220
+ - `batch_sampler`: no_duplicates
221
+
222
+ #### All Hyperparameters
223
+ <details><summary>Click to expand</summary>
224
+
225
+ - `overwrite_output_dir`: False
226
+ - `do_predict`: False
227
+ - `eval_strategy`: steps
228
+ - `prediction_loss_only`: True
229
+ - `per_device_train_batch_size`: 32
230
+ - `per_device_eval_batch_size`: 32
231
+ - `per_gpu_train_batch_size`: None
232
+ - `per_gpu_eval_batch_size`: None
233
+ - `gradient_accumulation_steps`: 1
234
+ - `eval_accumulation_steps`: None
235
+ - `torch_empty_cache_steps`: None
236
+ - `learning_rate`: 5e-05
237
+ - `weight_decay`: 0.0
238
+ - `adam_beta1`: 0.9
239
+ - `adam_beta2`: 0.999
240
+ - `adam_epsilon`: 1e-08
241
+ - `max_grad_norm`: 1.0
242
+ - `num_train_epochs`: 3
243
+ - `max_steps`: -1
244
+ - `lr_scheduler_type`: linear
245
+ - `lr_scheduler_kwargs`: {}
246
+ - `warmup_ratio`: 0.1
247
+ - `warmup_steps`: 0
248
+ - `log_level`: passive
249
+ - `log_level_replica`: warning
250
+ - `log_on_each_node`: True
251
+ - `logging_nan_inf_filter`: True
252
+ - `save_safetensors`: True
253
+ - `save_on_each_node`: False
254
+ - `save_only_model`: False
255
+ - `restore_callback_states_from_checkpoint`: False
256
+ - `no_cuda`: False
257
+ - `use_cpu`: False
258
+ - `use_mps_device`: False
259
+ - `seed`: 42
260
+ - `data_seed`: None
261
+ - `jit_mode_eval`: False
262
+ - `use_ipex`: False
263
+ - `bf16`: True
264
+ - `fp16`: False
265
+ - `fp16_opt_level`: O1
266
+ - `half_precision_backend`: auto
267
+ - `bf16_full_eval`: False
268
+ - `fp16_full_eval`: False
269
+ - `tf32`: None
270
+ - `local_rank`: 0
271
+ - `ddp_backend`: None
272
+ - `tpu_num_cores`: None
273
+ - `tpu_metrics_debug`: False
274
+ - `debug`: []
275
+ - `dataloader_drop_last`: False
276
+ - `dataloader_num_workers`: 0
277
+ - `dataloader_prefetch_factor`: None
278
+ - `past_index`: -1
279
+ - `disable_tqdm`: False
280
+ - `remove_unused_columns`: True
281
+ - `label_names`: None
282
+ - `load_best_model_at_end`: False
283
+ - `ignore_data_skip`: False
284
+ - `fsdp`: []
285
+ - `fsdp_min_num_params`: 0
286
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
287
+ - `fsdp_transformer_layer_cls_to_wrap`: None
288
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
289
+ - `deepspeed`: None
290
+ - `label_smoothing_factor`: 0.0
291
+ - `optim`: adamw_torch
292
+ - `optim_args`: None
293
+ - `adafactor`: False
294
+ - `group_by_length`: False
295
+ - `length_column_name`: length
296
+ - `ddp_find_unused_parameters`: None
297
+ - `ddp_bucket_cap_mb`: None
298
+ - `ddp_broadcast_buffers`: False
299
+ - `dataloader_pin_memory`: True
300
+ - `dataloader_persistent_workers`: False
301
+ - `skip_memory_metrics`: True
302
+ - `use_legacy_prediction_loop`: False
303
+ - `push_to_hub`: False
304
+ - `resume_from_checkpoint`: None
305
+ - `hub_model_id`: None
306
+ - `hub_strategy`: every_save
307
+ - `hub_private_repo`: None
308
+ - `hub_always_push`: False
309
+ - `gradient_checkpointing`: False
310
+ - `gradient_checkpointing_kwargs`: None
311
+ - `include_inputs_for_metrics`: False
312
+ - `include_for_metrics`: []
313
+ - `eval_do_concat_batches`: True
314
+ - `fp16_backend`: auto
315
+ - `push_to_hub_model_id`: None
316
+ - `push_to_hub_organization`: None
317
+ - `mp_parameters`:
318
+ - `auto_find_batch_size`: False
319
+ - `full_determinism`: False
320
+ - `torchdynamo`: None
321
+ - `ray_scope`: last
322
+ - `ddp_timeout`: 1800
323
+ - `torch_compile`: False
324
+ - `torch_compile_backend`: None
325
+ - `torch_compile_mode`: None
326
+ - `dispatch_batches`: None
327
+ - `split_batches`: None
328
+ - `include_tokens_per_second`: False
329
+ - `include_num_input_tokens_seen`: False
330
+ - `neftune_noise_alpha`: None
331
+ - `optim_target_modules`: None
332
+ - `batch_eval_metrics`: False
333
+ - `eval_on_start`: False
334
+ - `use_liger_kernel`: False
335
+ - `eval_use_gather_object`: False
336
+ - `average_tokens_across_devices`: False
337
+ - `prompts`: None
338
+ - `batch_sampler`: no_duplicates
339
+ - `multi_dataset_batch_sampler`: proportional
340
+
341
+ </details>
342
+
343
+ ### Training Logs
344
+ | Epoch | Step | Training Loss | Validation Loss |
345
+ |:------:|:----:|:-------------:|:---------------:|
346
+ | 0.5682 | 50 | 0.1253 | 0.0241 |
347
+ | 1.1364 | 100 | 0.0462 | 0.0250 |
348
+ | 1.7045 | 150 | 0.0341 | 0.0100 |
349
+ | 2.2727 | 200 | 0.0312 | 0.0070 |
350
+ | 2.8409 | 250 | 0.0241 | 0.0068 |
351
+
352
+
353
+ ### Framework Versions
354
+ - Python: 3.11.10
355
+ - Sentence Transformers: 3.4.1
356
+ - Transformers: 4.49.0
357
+ - PyTorch: 2.6.0+cu124
358
+ - Accelerate: 1.4.0
359
+ - Datasets: 3.3.2
360
+ - Tokenizers: 0.21.0
361
+
362
+ ## Citation
363
+
364
+ ### BibTeX
365
+
366
+ #### Sentence Transformers
367
+ ```bibtex
368
+ @inproceedings{reimers-2019-sentence-bert,
369
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
370
+ author = "Reimers, Nils and Gurevych, Iryna",
371
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
372
+ month = "11",
373
+ year = "2019",
374
+ publisher = "Association for Computational Linguistics",
375
+ url = "https://arxiv.org/abs/1908.10084",
376
+ }
377
+ ```
378
+
379
+ #### MultipleNegativesRankingLoss
380
+ ```bibtex
381
+ @misc{henderson2017efficient,
382
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
383
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
384
+ year={2017},
385
+ eprint={1705.00652},
386
+ archivePrefix={arXiv},
387
+ primaryClass={cs.CL}
388
+ }
389
+ ```
390
+
391
+ <!--
392
+ ## Glossary
393
+
394
+ *Clearly define terms in order to be accessible across audiences.*
395
+ -->
396
+
397
+ <!--
398
+ ## Model Card Authors
399
+
400
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
401
+ -->
402
+
403
+ <!--
404
+ ## Model Card Contact
405
+
406
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
407
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "BAAI/bge-m3",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.49.0",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.4.1",
4
+ "transformers": "4.49.0",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4b32095886ff11957f965f1e4f449466060ef274afbcb4e253d6df7233100f61
3
+ size 2271064456
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 8192,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e4f7e21bec3fb0044ca0bb2d50eb5d4d8c596273c422baef84466d2c73748b9c
3
+ size 17083053
tokenizer_config.json ADDED
@@ -0,0 +1,56 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 8192,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "sp_model_kwargs": {},
54
+ "tokenizer_class": "XLMRobertaTokenizer",
55
+ "unk_token": "<unk>"
56
+ }