huudan123 commited on
Commit
96d1fe0
1 Parent(s): c638576

Add new SentenceTransformer model.

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,413 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: huudan123/model_stage3
3
+ datasets: []
4
+ language: []
5
+ library_name: sentence-transformers
6
+ metrics:
7
+ - pearson_cosine
8
+ - spearman_cosine
9
+ - pearson_manhattan
10
+ - spearman_manhattan
11
+ - pearson_euclidean
12
+ - spearman_euclidean
13
+ - pearson_dot
14
+ - spearman_dot
15
+ - pearson_max
16
+ - spearman_max
17
+ pipeline_tag: sentence-similarity
18
+ tags:
19
+ - sentence-transformers
20
+ - sentence-similarity
21
+ - feature-extraction
22
+ - generated_from_trainer
23
+ - dataset_size:96896
24
+ - loss:CosineSimilarityLoss
25
+ widget:
26
+ - source_sentence: 'Đó là chính thức: Thỏa thuận đạt được trên \"vách đá tài chính\"'
27
+ sentences:
28
+ - Chỉ số trung bình công nghiệp Dow Jones . DJI kết thúc phiên tăng 56,79 điểm,
29
+ tương đương 0,67%, lên 8.588,36 điểm - mức cao nhất kể từ ngày 17/1.
30
+ - Thượng viện Hoa Kỳ bỏ phiếu về thỏa thuận vách đá tài chính khi thời hạn gần kề
31
+ - Nhà hoạt động Trung Quốc Chen hạ cánh ở Mỹ
32
+ - source_sentence: Một người đàn ông mặc vest đang đạp xe trên con đường trải nhựa.
33
+ sentences:
34
+ - Bất cứ khi nào tôi bắt đầu đọc đi đọc lại cùng một dòng, tôi bắt đầu đọc lướt.
35
+ - Một người đàn ông, phụ nữ và đi bộ trên một con đường trải nhựa.
36
+ - Một trắng với những vệt màu nâu nhạt có một cây gậy trong miệng và bàn chân của
37
+ nó trong tuyết.
38
+ - source_sentence: Một người đàn ông đang giơ lên và nói về một chiếc áo phông You
39
+ Tube màu xám.
40
+ sentences:
41
+ - Một người đàn ông mặc bộ đồ màu xám đang khóa một chiếc xe đạp
42
+ - Số người chết vì động đất ở Philippines tăng lên 185 người
43
+ - Và thực tế đơn giản ngày hôm nay?
44
+ - source_sentence: 'Ông Kerry: Chưa có thỏa thuận nào trong các cuộc đàm phán hạt
45
+ nhân với Iran'
46
+ sentences:
47
+ - Không có nhiều thứ mà bạn có thể làm với một món khai vị bột chua.
48
+ - Nhà đàm phán Iran lạc quan về các cuộc đàm phán hạt nhân mới nhất
49
+ - \"Tôi nghĩ bây giờ chúng ta có thể coi những gì đang xảy ra là một dịch bệnh thực
50
+ sự\", Bộ trưởng Y tế Jean-Francois Mattei nói trên đài phát thanh France Inter.
51
+ - source_sentence: Tổng thống Ukraine Leonid Kuchma hôm nay đã cắt ngắn chuyến thăm
52
+ Mỹ Latinh khi cuộc tranh cãi biên giới gay gắt giữa Ukraine và Nga ngày càng xấu
53
+ đi.
54
+ sentences:
55
+ - Mỹ, NATO dấy lên nghi ngại Nga rút khỏi biên giới Ukraine
56
+ - Một chiếc xe buýt màu xanh lá cây lái xuống một con đường.
57
+ - Một người đàn ông mặc áo khoác màu cam nói chuyện với một người khác khi họ đi
58
+ bộ trong tuyết.
59
+ model-index:
60
+ - name: SentenceTransformer based on huudan123/model_stage3
61
+ results:
62
+ - task:
63
+ type: semantic-similarity
64
+ name: Semantic Similarity
65
+ dataset:
66
+ name: sts evaluator
67
+ type: sts-evaluator
68
+ metrics:
69
+ - type: pearson_cosine
70
+ value: 0.3754740953446945
71
+ name: Pearson Cosine
72
+ - type: spearman_cosine
73
+ value: 0.3703412999539646
74
+ name: Spearman Cosine
75
+ - type: pearson_manhattan
76
+ value: 0.41622539402823844
77
+ name: Pearson Manhattan
78
+ - type: spearman_manhattan
79
+ value: 0.4060073965027723
80
+ name: Spearman Manhattan
81
+ - type: pearson_euclidean
82
+ value: 0.41568843930044774
83
+ name: Pearson Euclidean
84
+ - type: spearman_euclidean
85
+ value: 0.4057107663984981
86
+ name: Spearman Euclidean
87
+ - type: pearson_dot
88
+ value: 0.2323006226625286
89
+ name: Pearson Dot
90
+ - type: spearman_dot
91
+ value: 0.2341693999798883
92
+ name: Spearman Dot
93
+ - type: pearson_max
94
+ value: 0.41622539402823844
95
+ name: Pearson Max
96
+ - type: spearman_max
97
+ value: 0.4060073965027723
98
+ name: Spearman Max
99
+ ---
100
+
101
+ # SentenceTransformer based on huudan123/model_stage3
102
+
103
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [huudan123/model_stage3](https://huggingface.co/huudan123/model_stage3). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
104
+
105
+ ## Model Details
106
+
107
+ ### Model Description
108
+ - **Model Type:** Sentence Transformer
109
+ - **Base model:** [huudan123/model_stage3](https://huggingface.co/huudan123/model_stage3) <!-- at revision 5f73845110fff744baa8531042ef826d11060c45 -->
110
+ - **Maximum Sequence Length:** 512 tokens
111
+ - **Output Dimensionality:** 768 tokens
112
+ - **Similarity Function:** Cosine Similarity
113
+ <!-- - **Training Dataset:** Unknown -->
114
+ <!-- - **Language:** Unknown -->
115
+ <!-- - **License:** Unknown -->
116
+
117
+ ### Model Sources
118
+
119
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
120
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
121
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
122
+
123
+ ### Full Model Architecture
124
+
125
+ ```
126
+ SentenceTransformer(
127
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
128
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
129
+ )
130
+ ```
131
+
132
+ ## Usage
133
+
134
+ ### Direct Usage (Sentence Transformers)
135
+
136
+ First install the Sentence Transformers library:
137
+
138
+ ```bash
139
+ pip install -U sentence-transformers
140
+ ```
141
+
142
+ Then you can load this model and run inference.
143
+ ```python
144
+ from sentence_transformers import SentenceTransformer
145
+
146
+ # Download from the 🤗 Hub
147
+ model = SentenceTransformer("huudan123/final-model-v2")
148
+ # Run inference
149
+ sentences = [
150
+ 'Tổng thống Ukraine Leonid Kuchma hôm nay đã cắt ngắn chuyến thăm Mỹ Latinh khi cuộc tranh cãi biên giới gay gắt giữa Ukraine và Nga ngày càng xấu đi.',
151
+ 'Mỹ, NATO dấy lên nghi ngại Nga rút khỏi biên giới Ukraine',
152
+ 'Một người đàn ông mặc áo khoác màu cam nói chuyện với một người khác khi họ đi bộ trong tuyết.',
153
+ ]
154
+ embeddings = model.encode(sentences)
155
+ print(embeddings.shape)
156
+ # [3, 768]
157
+
158
+ # Get the similarity scores for the embeddings
159
+ similarities = model.similarity(embeddings, embeddings)
160
+ print(similarities.shape)
161
+ # [3, 3]
162
+ ```
163
+
164
+ <!--
165
+ ### Direct Usage (Transformers)
166
+
167
+ <details><summary>Click to see the direct usage in Transformers</summary>
168
+
169
+ </details>
170
+ -->
171
+
172
+ <!--
173
+ ### Downstream Usage (Sentence Transformers)
174
+
175
+ You can finetune this model on your own dataset.
176
+
177
+ <details><summary>Click to expand</summary>
178
+
179
+ </details>
180
+ -->
181
+
182
+ <!--
183
+ ### Out-of-Scope Use
184
+
185
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
186
+ -->
187
+
188
+ ## Evaluation
189
+
190
+ ### Metrics
191
+
192
+ #### Semantic Similarity
193
+ * Dataset: `sts-evaluator`
194
+ * Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
195
+
196
+ | Metric | Value |
197
+ |:-------------------|:----------|
198
+ | pearson_cosine | 0.3755 |
199
+ | spearman_cosine | 0.3703 |
200
+ | pearson_manhattan | 0.4162 |
201
+ | spearman_manhattan | 0.406 |
202
+ | pearson_euclidean | 0.4157 |
203
+ | spearman_euclidean | 0.4057 |
204
+ | pearson_dot | 0.2323 |
205
+ | spearman_dot | 0.2342 |
206
+ | pearson_max | 0.4162 |
207
+ | **spearman_max** | **0.406** |
208
+
209
+ <!--
210
+ ## Bias, Risks and Limitations
211
+
212
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
213
+ -->
214
+
215
+ <!--
216
+ ### Recommendations
217
+
218
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
219
+ -->
220
+
221
+ ## Training Details
222
+
223
+ ### Training Hyperparameters
224
+ #### Non-Default Hyperparameters
225
+
226
+ - `overwrite_output_dir`: True
227
+ - `eval_strategy`: epoch
228
+ - `per_device_train_batch_size`: 128
229
+ - `per_device_eval_batch_size`: 128
230
+ - `learning_rate`: 1e-05
231
+ - `num_train_epochs`: 30
232
+ - `warmup_ratio`: 0.1
233
+ - `fp16`: True
234
+ - `load_best_model_at_end`: True
235
+ - `gradient_checkpointing`: True
236
+
237
+ #### All Hyperparameters
238
+ <details><summary>Click to expand</summary>
239
+
240
+ - `overwrite_output_dir`: True
241
+ - `do_predict`: False
242
+ - `eval_strategy`: epoch
243
+ - `prediction_loss_only`: True
244
+ - `per_device_train_batch_size`: 128
245
+ - `per_device_eval_batch_size`: 128
246
+ - `per_gpu_train_batch_size`: None
247
+ - `per_gpu_eval_batch_size`: None
248
+ - `gradient_accumulation_steps`: 1
249
+ - `eval_accumulation_steps`: None
250
+ - `learning_rate`: 1e-05
251
+ - `weight_decay`: 0.0
252
+ - `adam_beta1`: 0.9
253
+ - `adam_beta2`: 0.999
254
+ - `adam_epsilon`: 1e-08
255
+ - `max_grad_norm`: 1.0
256
+ - `num_train_epochs`: 30
257
+ - `max_steps`: -1
258
+ - `lr_scheduler_type`: linear
259
+ - `lr_scheduler_kwargs`: {}
260
+ - `warmup_ratio`: 0.1
261
+ - `warmup_steps`: 0
262
+ - `log_level`: passive
263
+ - `log_level_replica`: warning
264
+ - `log_on_each_node`: True
265
+ - `logging_nan_inf_filter`: True
266
+ - `save_safetensors`: True
267
+ - `save_on_each_node`: False
268
+ - `save_only_model`: False
269
+ - `restore_callback_states_from_checkpoint`: False
270
+ - `no_cuda`: False
271
+ - `use_cpu`: False
272
+ - `use_mps_device`: False
273
+ - `seed`: 42
274
+ - `data_seed`: None
275
+ - `jit_mode_eval`: False
276
+ - `use_ipex`: False
277
+ - `bf16`: False
278
+ - `fp16`: True
279
+ - `fp16_opt_level`: O1
280
+ - `half_precision_backend`: auto
281
+ - `bf16_full_eval`: False
282
+ - `fp16_full_eval`: False
283
+ - `tf32`: None
284
+ - `local_rank`: 0
285
+ - `ddp_backend`: None
286
+ - `tpu_num_cores`: None
287
+ - `tpu_metrics_debug`: False
288
+ - `debug`: []
289
+ - `dataloader_drop_last`: False
290
+ - `dataloader_num_workers`: 0
291
+ - `dataloader_prefetch_factor`: None
292
+ - `past_index`: -1
293
+ - `disable_tqdm`: False
294
+ - `remove_unused_columns`: True
295
+ - `label_names`: None
296
+ - `load_best_model_at_end`: True
297
+ - `ignore_data_skip`: False
298
+ - `fsdp`: []
299
+ - `fsdp_min_num_params`: 0
300
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
301
+ - `fsdp_transformer_layer_cls_to_wrap`: None
302
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
303
+ - `deepspeed`: None
304
+ - `label_smoothing_factor`: 0.0
305
+ - `optim`: adamw_torch
306
+ - `optim_args`: None
307
+ - `adafactor`: False
308
+ - `group_by_length`: False
309
+ - `length_column_name`: length
310
+ - `ddp_find_unused_parameters`: None
311
+ - `ddp_bucket_cap_mb`: None
312
+ - `ddp_broadcast_buffers`: False
313
+ - `dataloader_pin_memory`: True
314
+ - `dataloader_persistent_workers`: False
315
+ - `skip_memory_metrics`: True
316
+ - `use_legacy_prediction_loop`: False
317
+ - `push_to_hub`: False
318
+ - `resume_from_checkpoint`: None
319
+ - `hub_model_id`: None
320
+ - `hub_strategy`: every_save
321
+ - `hub_private_repo`: False
322
+ - `hub_always_push`: False
323
+ - `gradient_checkpointing`: True
324
+ - `gradient_checkpointing_kwargs`: None
325
+ - `include_inputs_for_metrics`: False
326
+ - `eval_do_concat_batches`: True
327
+ - `fp16_backend`: auto
328
+ - `push_to_hub_model_id`: None
329
+ - `push_to_hub_organization`: None
330
+ - `mp_parameters`:
331
+ - `auto_find_batch_size`: False
332
+ - `full_determinism`: False
333
+ - `torchdynamo`: None
334
+ - `ray_scope`: last
335
+ - `ddp_timeout`: 1800
336
+ - `torch_compile`: False
337
+ - `torch_compile_backend`: None
338
+ - `torch_compile_mode`: None
339
+ - `dispatch_batches`: None
340
+ - `split_batches`: None
341
+ - `include_tokens_per_second`: False
342
+ - `include_num_input_tokens_seen`: False
343
+ - `neftune_noise_alpha`: None
344
+ - `optim_target_modules`: None
345
+ - `batch_eval_metrics`: False
346
+ - `eval_on_start`: False
347
+ - `batch_sampler`: batch_sampler
348
+ - `multi_dataset_batch_sampler`: proportional
349
+
350
+ </details>
351
+
352
+ ### Training Logs
353
+ | Epoch | Step | Training Loss | loss | sts-evaluator_spearman_max |
354
+ |:-------:|:-------:|:-------------:|:---------:|:--------------------------:|
355
+ | 0 | 0 | - | - | 0.8439 |
356
+ | 0.6605 | 500 | 0.0227 | - | - |
357
+ | **1.0** | **757** | **-** | **0.013** | **0.7088** |
358
+ | 1.3210 | 1000 | 0.006 | - | - |
359
+ | 1.9815 | 1500 | 0.0028 | - | - |
360
+ | 2.0 | 1514 | - | 0.0193 | 0.5952 |
361
+ | 2.6420 | 2000 | 0.0018 | - | - |
362
+ | 3.0 | 2271 | - | 0.0524 | 0.5241 |
363
+ | 3.3025 | 2500 | 0.0014 | - | - |
364
+ | 3.9630 | 3000 | 0.0012 | - | - |
365
+ | 4.0 | 3028 | - | 0.0684 | 0.4667 |
366
+ | 4.6235 | 3500 | 0.0012 | - | - |
367
+ | 5.0 | 3785 | - | 0.0889 | 0.4060 |
368
+
369
+ * The bold row denotes the saved checkpoint.
370
+
371
+ ### Framework Versions
372
+ - Python: 3.10.12
373
+ - Sentence Transformers: 3.0.1
374
+ - Transformers: 4.42.4
375
+ - PyTorch: 2.3.1+cu121
376
+ - Accelerate: 0.33.0
377
+ - Datasets: 2.20.0
378
+ - Tokenizers: 0.19.1
379
+
380
+ ## Citation
381
+
382
+ ### BibTeX
383
+
384
+ #### Sentence Transformers
385
+ ```bibtex
386
+ @inproceedings{reimers-2019-sentence-bert,
387
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
388
+ author = "Reimers, Nils and Gurevych, Iryna",
389
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
390
+ month = "11",
391
+ year = "2019",
392
+ publisher = "Association for Computational Linguistics",
393
+ url = "https://arxiv.org/abs/1908.10084",
394
+ }
395
+ ```
396
+
397
+ <!--
398
+ ## Glossary
399
+
400
+ *Clearly define terms in order to be accessible across audiences.*
401
+ -->
402
+
403
+ <!--
404
+ ## Model Card Authors
405
+
406
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
407
+ -->
408
+
409
+ <!--
410
+ ## Model Card Contact
411
+
412
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
413
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "./final_output",
3
+ "architectures": [
4
+ "RobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 258,
17
+ "model_type": "roberta",
18
+ "num_attention_heads": 12,
19
+ "num_hidden_layers": 12,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "tokenizer_class": "PhobertTokenizer",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.42.4",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 64001
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.42.4",
5
+ "pytorch": "2.3.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0aa6c9a239aa4409269d74f63b4dd3f4f0d7915c16d276be450fe7b68a7c6198
3
+ size 540015464
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 512,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "tokenizer_class": "PhobertTokenizer",
53
+ "unk_token": "<unk>"
54
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff