Add new SentenceTransformer model.
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +553 -0
- config.json +29 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +61 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,553 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language: []
|
3 |
+
library_name: sentence-transformers
|
4 |
+
tags:
|
5 |
+
- sentence-transformers
|
6 |
+
- sentence-similarity
|
7 |
+
- feature-extraction
|
8 |
+
- dataset_size:1K<n<10K
|
9 |
+
- loss:TripletLoss
|
10 |
+
base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
|
11 |
+
metrics:
|
12 |
+
- cosine_accuracy
|
13 |
+
- dot_accuracy
|
14 |
+
- manhattan_accuracy
|
15 |
+
- euclidean_accuracy
|
16 |
+
- max_accuracy
|
17 |
+
widget:
|
18 |
+
- source_sentence: Địa điểm nào sau đây được phép đăng ký thường trú mới?
|
19 |
+
sentences:
|
20 |
+
- 'Địa điểm không được đăng ký thường trú mới
|
21 |
+
|
22 |
+
|
23 |
+
1. Chỗ ở nằm trong địa điểm cấm, khu vực cấm xây dựng hoặc lấn, chiếm hành lang
|
24 |
+
bảo vệ quốc phòng, an ninh, giao thông, thủy lợi, đê điều, năng lượng, mốc giới
|
25 |
+
bảo vệ công trình hạ tầng kỹ thuật, di tích lịch sử - văn hóa đã được xếp hạng,
|
26 |
+
khu vực đã được cảnh báo về nguy cơ lở đất, lũ quét, lũ ống và khu vực bảo vệ
|
27 |
+
công trình khác theo quy định của pháp luật.
|
28 |
+
|
29 |
+
|
30 |
+
2. Chỗ ở mà toàn bộ diện tích nhà ở nằm trên đất lấn, chiếm trái phép hoặc chỗ
|
31 |
+
ở xây dựng trên diện tích đất không đủ điều kiện xây dựng theo quy định của pháp
|
32 |
+
luật.
|
33 |
+
|
34 |
+
|
35 |
+
3. Chỗ ở đã có quyết định thu hồi đất và quyết định phê duyệt phương án bồi thường,
|
36 |
+
hỗ trợ và tái định cư của cơ quan nhà nước có thẩm quyền; chỗ ở là nhà ở mà một
|
37 |
+
phần hoặc toàn bộ diện tích nhà ở đang có tranh chấp, khiếu nại liên quan đến
|
38 |
+
quyền sở hữu, quyền sử dụng nhưng chưa được giải quyết theo quy định của pháp
|
39 |
+
luật.
|
40 |
+
|
41 |
+
|
42 |
+
4. Chỗ ở bị tịch thu theo quyết định của cơ quan nhà nước có thẩm quyền; phương
|
43 |
+
tiện được dùng làm nơi đăng ký thường trú đã bị xóa đăng ký phương tiện hoặc không
|
44 |
+
có giấy chứng nhận an toàn kỹ thuật và bảo vệ môi trường theo quy định của pháp
|
45 |
+
luật.
|
46 |
+
|
47 |
+
|
48 |
+
5. Chỗ ở là nhà ở đã có quyết định phá dỡ của cơ quan nhà nước có thẩm quyền.'
|
49 |
+
- 'Thời điểm bắt đầu tố tụng trọng tài
|
50 |
+
|
51 |
+
|
52 |
+
1. Trường hợp tranh chấp được giải quyết tại Trung tâm trọng tài, nếu các bên
|
53 |
+
không có thỏa thuận khác, thì thời điểm bắt đầu tố tụng trọng tài được tính từ
|
54 |
+
khi Trung tâm trọng tài nhận được đơn khởi kiện của nguyên đơn.
|
55 |
+
|
56 |
+
|
57 |
+
2. Trường hợp tranh chấp được giải quyết bằng Trọng tài vụ việc, nếu các bên không
|
58 |
+
có thoả thuận khác, thì thời điểm bắt đầu tố tụng trọng tài được tính từ khi bị
|
59 |
+
đơn nhận được đơn khởi kiện của nguyên đơn.'
|
60 |
+
- Trường hợp công dân không trong độ tuổi nhập ngũ, nếu đi du học, xuất khẩu lao
|
61 |
+
động không cần phải khai báo tạm vắng, đúng hay sai?
|
62 |
+
- source_sentence: Đơn vị nào có thẩm quyền cấp giấy phép phân loại phim?
|
63 |
+
sentences:
|
64 |
+
- 'Phim đã được Bộ Văn hóa, Thể thao và Du lịch, Ủy ban nhân dân cấp tỉnh cấp giấy
|
65 |
+
phép phân loại phim sẽ có giá trị trên toàn quốc là đúng hay sai? '
|
66 |
+
- 'Vị trí việc làm
|
67 |
+
|
68 |
+
|
69 |
+
1. Vị trí việc làm là công việc hoặc nhiệm vụ gắn với chức danh nghề nghiệp hoặc
|
70 |
+
chức vụ quản lý tương ứng, là căn cứ xác định số lượng người làm việc, cơ cấu
|
71 |
+
viên chức để thực hiện việc tuyển dụng, sử dụng và quản lý viên chức trong đơn
|
72 |
+
vị sự nghiệp công lập.
|
73 |
+
|
74 |
+
|
75 |
+
2. Chính phủ quy định nguyên tắc, phương pháp xác định vị trí việc làm, thẩm quyền,
|
76 |
+
trình tự, thủ tục quyết định số lượng vị trí việc làm trong đơn vị sự nghiệp công
|
77 |
+
lập.'
|
78 |
+
- 'Nơi cư trú của người sinh sống, người làm nghề lưu động trên tàu, thuyền hoặc
|
79 |
+
phương tiện khác có khả năng di chuyển
|
80 |
+
|
81 |
+
|
82 |
+
1. Nơi cư trú của người sinh sống, người làm nghề lưu động trên tàu, thuyền hoặc
|
83 |
+
phương tiện khác có khả năng di chuyển (sau đây gọi chung là phương tiện) là nơi
|
84 |
+
đăng ký phương tiện đó, trừ trường hợp có nơi cư trú khác theo quy định của Luật
|
85 |
+
này.
|
86 |
+
|
87 |
+
|
88 |
+
Đối với phương tiện không phải đăng ký hoặc có nơi đăng ký phương tiện không trùng
|
89 |
+
với nơi thường xuyên đậu, đỗ thì nơi cư trú của người sinh sống, người làm nghề
|
90 |
+
lưu động là nơi phương tiện đó thường xuyên đậu, đỗ.
|
91 |
+
|
92 |
+
|
93 |
+
2. Chính phủ quy định chi tiết Điều này.'
|
94 |
+
- source_sentence: Thỏa thuận trọng tài có độc lập với hợp đồng hay không?
|
95 |
+
sentences:
|
96 |
+
- 'Tính độc lập của thoả thuận trọng tài
|
97 |
+
|
98 |
+
|
99 |
+
Thoả thuận trọng tài hoàn toàn độc lập với hợp đồng. Việc thay đổi, gia hạn, hủy
|
100 |
+
bỏ hợp đồng, hợp đồng vô hiệu hoặc không thể thực hiện được không làm mất hiệu
|
101 |
+
lực của thoả thuận trọng tài.'
|
102 |
+
- 'Thời điểm chấm dứt hôn nhân và trách nhiệm gửi bản án, quyết định ly hôn
|
103 |
+
|
104 |
+
1. Quan hệ hôn nhân chấm dứt kể từ ngày bản án, quyết định ly hôn của Tòa án có
|
105 |
+
hiệu lực pháp luật.
|
106 |
+
|
107 |
+
|
108 |
+
2. Tòa án đã giải quyết ly hôn phải gửi bản án, quyết định ly hôn đã có hiệu lực
|
109 |
+
pháp luật cho cơ quan đã thực hiện việc đăng ký kết hôn để ghi vào sổ hộ tịch;
|
110 |
+
hai bên ly hôn; cá nhân, cơ quan, tổ chức khác theo quy định của Bộ luật tố tụng
|
111 |
+
dân sự và các luật khác có liên quan.'
|
112 |
+
- 'Công nhận, ghi chú bản án, quyết định của Tòa án, cơ quan có thẩm quyền của nước
|
113 |
+
ngoài về hôn nhân và gia đình
|
114 |
+
|
115 |
+
1. Việc công nhận bản án, quyết định về hôn nhân và gia đình của Tòa án nước ngoài
|
116 |
+
có yêu cầu thi hành tại Việt Nam được thực hiện theo quy định của Bộ luật tố tụng
|
117 |
+
dân sự.
|
118 |
+
|
119 |
+
|
120 |
+
2. Chính phủ quy định việc ghi vào sổ hộ tịch các việc về hôn nhân và gia đình
|
121 |
+
theo bản án, quyết định của Tòa án nước ngoài mà không có yêu cầu thi hành tại
|
122 |
+
Việt Nam hoặc không có đơn yêu cầu không công nhận tại Việt Nam; quyết định về
|
123 |
+
hôn nhân và gia đình của cơ quan khác có thẩm quyền của nước ngoài.'
|
124 |
+
- source_sentence: Cơ sở cai nghiện ma túy công lập phải bố trí các khu gì?
|
125 |
+
sentences:
|
126 |
+
- 'Cơ sở giáo dục phổ thông
|
127 |
+
|
128 |
+
|
129 |
+
Cơ sở giáo dục phổ thông bao gồm:
|
130 |
+
|
131 |
+
|
132 |
+
1. Trường tiểu học;
|
133 |
+
|
134 |
+
|
135 |
+
2. Trường trung học cơ sở;
|
136 |
+
|
137 |
+
|
138 |
+
3. Trường trung học phổ thông;
|
139 |
+
|
140 |
+
|
141 |
+
4. Trường phổ thông có nhiều cấp học.'
|
142 |
+
- 'Vai trò và trách nhiệm của cán bộ quản lý giáo dục
|
143 |
+
|
144 |
+
|
145 |
+
1. Cán bộ quản lý giáo dục giữ vai trò quan trọng trong việc tổ chức, quản lý,
|
146 |
+
điều hành các hoạt động giáo dục.
|
147 |
+
|
148 |
+
|
149 |
+
2. Cán bộ quản lý giáo dục có trách nhiệm học tập, rèn luyện, nâng cao phẩm
|
150 |
+
chất đạo đức, trình độ chuyên môn, năng lực quản lý và thực hiện các chuẩn, quy
|
151 |
+
chuẩn theo quy định của pháp luật.
|
152 |
+
|
153 |
+
|
154 |
+
3. Nhà nước có kế hoạch xây dựng và nâng cao chất lượng đội ngũ cán bộ quản lý
|
155 |
+
giáo dục.'
|
156 |
+
- Trường hợp công dân không trong độ tuổi nhập ngũ, nếu đi du học, xuất khẩu lao
|
157 |
+
động không cần phải khai báo tạm vắng, đúng hay sai?
|
158 |
+
- source_sentence: Có bao nhiêu trình độ giáo dục nghề nghiệp được đào tạo?
|
159 |
+
sentences:
|
160 |
+
- 'Các trình độ đào tạo giáo dục nghề nghiệp
|
161 |
+
|
162 |
+
|
163 |
+
Giáo dục nghề nghiệp đào tạo trình độ sơ cấp, trình độ trung cấp, trình độ cao
|
164 |
+
đẳng và chương trình đào tạo nghề nghiệp khác cho người học, đáp ứng nhu cầu nhân
|
165 |
+
lực trực tiếp trong sản xuất, kinh doanh và dịch vụ.'
|
166 |
+
- 'Mục tiêu của giáo dục nghề nghiệp
|
167 |
+
|
168 |
+
|
169 |
+
Giáo dục nghề nghiệp nhằm đào tạo nhân lực trực tiếp cho sản xuất, kinh doanh
|
170 |
+
và dịch vụ, có năng lực hành nghề tương ứng với trình độ đào tạo; có đạo đức,
|
171 |
+
sức khỏe; có trách nhiệm nghề nghiệp; có khả năng sáng tạo, thích ứng với môi
|
172 |
+
trường hội nhập quốc tế; bảo đảm nâng cao năng suất, chất lượng lao động; tạo
|
173 |
+
điều kiện cho người học sau khi hoàn thành khóa học có khả năng tìm việc làm,
|
174 |
+
tự tạo việc làm hoặc học trình độ cao hơn.'
|
175 |
+
- 'Chính sách phát triển giáo dục thường xuyên
|
176 |
+
|
177 |
+
|
178 |
+
1. Nhà nước có chính sách đầu tư phát triển giáo dục thường xuyên, thực hiện giáo
|
179 |
+
dục cho mọi người, thúc đẩy việc học tập của người lớn, xây dựng xã hội học tập;
|
180 |
+
khuyến khích tổ chức, cá nhân tham gia, cung ứng dịch vụ giáo dục thường xuyên
|
181 |
+
có chất lượng, đáp ứng nhu cầu học tập suốt đời của người học.
|
182 |
+
|
183 |
+
|
184 |
+
2. Cơ quan, tổ chức có trách nhiệm tạo điều kiện thuận lợi cho cán bộ, công chức,
|
185 |
+
viên chức và người lao động được thường xuyên học tập, học tập suốt đời để phát
|
186 |
+
triển bản thân và nâng cao chất lượng cuộc sống.
|
187 |
+
|
188 |
+
|
189 |
+
3. Cơ sở giáo dục nghề nghiệp, cơ sở giáo dục đại học có trách nhiệm phối hợp
|
190 |
+
với cơ sở giáo dục thường xuyên trong việc cung cấp nguồn học liệu cho cơ sở giáo
|
191 |
+
dục thường xuyên để đáp ứng nhu cầu học tập của người học; cơ sở giáo dục đào
|
192 |
+
tạo nhà giáo có trách nhiệm nghiên cứu về khoa học giáo dục, đào tạo, bồi dưỡng
|
193 |
+
đội ngũ nhà giáo của các cơ sở giáo dục thường xuyên.'
|
194 |
+
pipeline_tag: sentence-similarity
|
195 |
+
model-index:
|
196 |
+
- name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2
|
197 |
+
results:
|
198 |
+
- task:
|
199 |
+
type: triplet
|
200 |
+
name: Triplet
|
201 |
+
dataset:
|
202 |
+
name: Unknown
|
203 |
+
type: unknown
|
204 |
+
metrics:
|
205 |
+
- type: cosine_accuracy
|
206 |
+
value: 0.9980532121998702
|
207 |
+
name: Cosine Accuracy
|
208 |
+
- type: dot_accuracy
|
209 |
+
value: 0.0006489292667099286
|
210 |
+
name: Dot Accuracy
|
211 |
+
- type: manhattan_accuracy
|
212 |
+
value: 0.9980532121998702
|
213 |
+
name: Manhattan Accuracy
|
214 |
+
- type: euclidean_accuracy
|
215 |
+
value: 0.9980532121998702
|
216 |
+
name: Euclidean Accuracy
|
217 |
+
- type: max_accuracy
|
218 |
+
value: 0.9980532121998702
|
219 |
+
name: Max Accuracy
|
220 |
+
---
|
221 |
+
|
222 |
+
# SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2
|
223 |
+
|
224 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
225 |
+
|
226 |
+
## Model Details
|
227 |
+
|
228 |
+
### Model Description
|
229 |
+
- **Model Type:** Sentence Transformer
|
230 |
+
- **Base model:** [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2) <!-- at revision 79f2382ceacceacdf38563d7c5d16b9ff8d725d6 -->
|
231 |
+
- **Maximum Sequence Length:** 512 tokens
|
232 |
+
- **Output Dimensionality:** 768 tokens
|
233 |
+
- **Similarity Function:** Cosine Similarity
|
234 |
+
<!-- - **Training Dataset:** Unknown -->
|
235 |
+
<!-- - **Language:** Unknown -->
|
236 |
+
<!-- - **License:** Unknown -->
|
237 |
+
|
238 |
+
### Model Sources
|
239 |
+
|
240 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
241 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
242 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
243 |
+
|
244 |
+
### Full Model Architecture
|
245 |
+
|
246 |
+
```
|
247 |
+
SentenceTransformer(
|
248 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
|
249 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
250 |
+
)
|
251 |
+
```
|
252 |
+
|
253 |
+
## Usage
|
254 |
+
|
255 |
+
### Direct Usage (Sentence Transformers)
|
256 |
+
|
257 |
+
First install the Sentence Transformers library:
|
258 |
+
|
259 |
+
```bash
|
260 |
+
pip install -U sentence-transformers
|
261 |
+
```
|
262 |
+
|
263 |
+
Then you can load this model and run inference.
|
264 |
+
```python
|
265 |
+
from sentence_transformers import SentenceTransformer
|
266 |
+
|
267 |
+
# Download from the 🤗 Hub
|
268 |
+
model = SentenceTransformer("huyhuy123/paraphrase-vietnamese-law-ALQAC")
|
269 |
+
# Run inference
|
270 |
+
sentences = [
|
271 |
+
'Có bao nhiêu trình độ giáo dục nghề nghiệp được đào tạo?',
|
272 |
+
'Các trình độ đào tạo giáo dục nghề nghiệp\n\nGiáo dục nghề nghiệp đào tạo trình độ sơ cấp, trình độ trung cấp, trình độ cao đẳng và chương trình đào tạo nghề nghiệp khác cho người học, đáp ứng nhu cầu nhân lực trực tiếp trong sản xuất, kinh doanh và dịch vụ.',
|
273 |
+
'Mục tiêu của giáo dục nghề nghiệp\n\nGiáo dục nghề nghiệp nhằm đào tạo nhân lực trực tiếp cho sản xuất, kinh doanh và dịch vụ, có năng lực hành nghề tương ứng với trình độ đào tạo; có đạo đức, sức khỏe; có trách nhiệm nghề nghiệp; có khả năng sáng tạo, thích ứng với môi trường hội nhập quốc tế; bảo đảm nâng cao năng suất, chất lượng lao động; tạo điều kiện cho người học sau khi hoàn thành khóa học có khả năng tìm việc làm, tự tạo việc làm hoặc học trình độ cao hơn.',
|
274 |
+
]
|
275 |
+
embeddings = model.encode(sentences)
|
276 |
+
print(embeddings.shape)
|
277 |
+
# [3, 768]
|
278 |
+
|
279 |
+
# Get the similarity scores for the embeddings
|
280 |
+
similarities = model.similarity(embeddings, embeddings)
|
281 |
+
print(similarities.shape)
|
282 |
+
# [3, 3]
|
283 |
+
```
|
284 |
+
|
285 |
+
<!--
|
286 |
+
### Direct Usage (Transformers)
|
287 |
+
|
288 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
289 |
+
|
290 |
+
</details>
|
291 |
+
-->
|
292 |
+
|
293 |
+
<!--
|
294 |
+
### Downstream Usage (Sentence Transformers)
|
295 |
+
|
296 |
+
You can finetune this model on your own dataset.
|
297 |
+
|
298 |
+
<details><summary>Click to expand</summary>
|
299 |
+
|
300 |
+
</details>
|
301 |
+
-->
|
302 |
+
|
303 |
+
<!--
|
304 |
+
### Out-of-Scope Use
|
305 |
+
|
306 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
307 |
+
-->
|
308 |
+
|
309 |
+
## Evaluation
|
310 |
+
|
311 |
+
### Metrics
|
312 |
+
|
313 |
+
#### Triplet
|
314 |
+
|
315 |
+
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
|
316 |
+
|
317 |
+
| Metric | Value |
|
318 |
+
|:-------------------|:-----------|
|
319 |
+
| cosine_accuracy | 0.9981 |
|
320 |
+
| dot_accuracy | 0.0006 |
|
321 |
+
| manhattan_accuracy | 0.9981 |
|
322 |
+
| euclidean_accuracy | 0.9981 |
|
323 |
+
| **max_accuracy** | **0.9981** |
|
324 |
+
|
325 |
+
<!--
|
326 |
+
## Bias, Risks and Limitations
|
327 |
+
|
328 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
329 |
+
-->
|
330 |
+
|
331 |
+
<!--
|
332 |
+
### Recommendations
|
333 |
+
|
334 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
335 |
+
-->
|
336 |
+
|
337 |
+
## Training Details
|
338 |
+
|
339 |
+
### Training Dataset
|
340 |
+
|
341 |
+
#### Unnamed Dataset
|
342 |
+
|
343 |
+
|
344 |
+
* Size: 6,160 training samples
|
345 |
+
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
|
346 |
+
* Approximate statistics based on the first 1000 samples:
|
347 |
+
| | sentence_0 | sentence_1 | sentence_2 |
|
348 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
349 |
+
| type | string | string | string |
|
350 |
+
| details | <ul><li>min: 9 tokens</li><li>mean: 29.91 tokens</li><li>max: 71 tokens</li></ul> | <ul><li>min: 43 tokens</li><li>mean: 247.68 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 203.09 tokens</li><li>max: 512 tokens</li></ul> |
|
351 |
+
* Samples:
|
352 |
+
| sentence_0 | sentence_1 | sentence_2 |
|
353 |
+
|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
354 |
+
| <code>Hướng nghiệp trong giáo dục không nhất thiết phải giúp học sinh có kiến thức về nghề nghiệp và khả năng lựa chọn nghề nghiệp trên cơ sở kết hợp nguyện vọng, sở trường của cá nhân với nhu cầu sử dụng lao động của xã hội, đúng hay sai?</code> | <code>Hướng nghiệp và phân luồng trong giáo dục<br><br>1. Hướng nghiệp trong giáo dục là hệ thống các biện pháp tiến hành trong và ngoài cơ sở giáo dục để giúp học sinh có kiến thức về nghề nghiệp, khả năng lựa chọn nghề nghiệp trên cơ sở kết hợp nguyện vọng, sở trường của cá nhân với nhu cầu sử dụng lao động của xã hội.<br><br>2. Phân luồng trong giáo dục là biện pháp tổ chức hoạt động giáo dục trên cơ sở thực hiện hướng nghiệp trong giáo dục, tạo điều kiện để học sinh tốt nghiệp trung học cơ sở, trung học phổ thông tiếp tục học ở cấp học, trình độ cao hơn hoặc theo học giáo dục nghề nghiệp hoặc tham gia lao động phù hợp với năng lực, điều kiện cụ thể của cá nhân và nhu cầu xã hội, góp phần điều tiết cơ cấu ngành nghề của lực lượng lao động phù hợp với yêu cầu phát triển của đất nước.<br><br>3. Chính phủ quy định chi tiết hướng nghiệp và phân luồng trong giáo dục theo từng giai đoạn phù hợp với nhu cầu phát triển kinh tế - xã hội.</code> | <code>Thẩm quyền, thủ tục thành lập hoặc cho phép thành lập; cho phép hoạt động giáo dục, đình chỉ hoạt động giáo dục; sáp nhập, chia, tách, giải thể nhà trường<br><br>1. Thẩm quyền thành lập trường công lập và cho phép thành lập trường dân lập, trường tư thục được quy định như sau:<br><br>a) Chủ tịch Ủy ban nhân dân cấp huyện quyết định đối với trường mầm non, trường mẫu giáo, trường tiểu học, trường trung học cơ sở, trường phổ thông có nhiều cấp học có cấp học cao nhất là trung học cơ sở, trường phổ thông dân tộc bán trú, trừ trường hợp quy định tại điểm d khoản này;<br><br>b) Chủ tịch Ủy ban nhân dân cấp tỉnh quyết định đối với trường trung học phổ thông, trường phổ thông có nhiều cấp học có cấp học cao nhất là trung học phổ thông, trường phổ thông dân tộc nội trú, trường trung cấp trên địa bàn tỉnh, trừ trường hợp quy định tại điểm c và điểm d khoản này;<br><br>c) Bộ trưởng, Thủ trưởng cơ quan ngang Bộ quyết định đối với trường trung cấp trực thuộc;<br><br>d) Bộ trưởng Bộ Giáo dục và Đào tạo quyết định đối với trường dự bị đại học, cao đẳng sư phạm và trường trực thuộc Bộ; trường mầm non, trường mẫu giáo, trường tiểu học, trường trung học cơ sở, trường trung học phổ thông do cơ quan đại diện ngoại giao nước ngoài, tổ chức quốc tế liên Chính phủ đề nghị;<br><br>đ) Bộ trưởng Bộ Lao động - Thương binh và Xã hội quyết định đối với trường cao đẳng, trừ trường cao đẳng sư phạm;<br><br>e) Thủ tướng Chính phủ quyết định đối với cơ sở giáo dục đại học.<br><br>2. Bộ trưởng Bộ Giáo dục và Đào tạo cho phép hoạt động giáo dục đối với cơ sở giáo dục đại học. Thẩm quyền cho phép hoạt động giáo dục đối với nhà trường ở các cấp học, trình độ đào tạo khác thực hiện theo quy định của Chính phủ.<br><br>3. Người có thẩm quyền thành lập hoặc cho phép thành lập nhà trường có thẩm quyền thu hồi quyết định thành lập hoặc cho phép thành lập, quyết định sáp nhập, chia, tách, giải thể nhà trường. Người có thẩm quyền cho phép hoạt động giáo dục có thẩm quyền quyết định đình chỉ hoạt động giáo dục.<br><br>Trường hợp sáp nhập giữa các nhà trường không do cùng một cấp có thẩm quyền thành lập thì cấp có thẩm quyền cao hơn quyết định; trường hợp cấp có thẩm quyền thành lập ngang nhau thì cấp có thẩm quyền ngang nhau đó thỏa thuận quyết định.<br><br>4. Chính phủ quy định chi tiết điều kiện, thủ tục thành lập hoặc cho phép thành lập; cho phép hoạt động giáo dục, đình chỉ hoạt động giáo dục; sáp nhập, chia, tách, giải thể nhà trường quy định tại các điều 49, 50, 51 và 52 của Luật này.</code> |
|
355 |
+
| <code>Chức năng của Trung tâm trọng tài là gì?</code> | <code>Chức năng của Trung tâm trọng tài<br><br>Trung tâm trọng tài có chức năng tổ chức, điều phối hoạt động giải quyết tranh chấp bằng Trọng tài quy chế và hỗ trợ Trọng tài viên về các mặt hành chính, văn phòng và các trợ giúp khác trong quá trình tố tụng trọng tài.</code> | <code>Xác định Toà án có thẩm quyền đối với hoạt động trọng tài<br><br>1. Trường hợp các bên đã có thỏa thuận lựa chọn một Tòa án cụ thể thì Tòa án có thẩm quyền là Tòa án được các bên lựa chọn.<br><br>2. Trường hợp các bên không có thỏa thuận lựa chọn Tòa án thì thẩm quyền của Tòa án được xác định như sau:<br><br>a) Đối với việc chỉ định Trọng tài viên để thành lập Hội đồng trọng tài vụ việc thì Tòa án có thẩm quyền là Tòa án nơi cư trú của bị đơn nếu bị đơn là cá nhân hoặc nơi có trụ sở của bị đơn nếu bị đơn là tổ chức. Trường hợp có nhiều bị đơn thì Tòa án có thẩm quyền là Tòa án nơi cư trú hoặc nơi có trụ sở của một trong các bị đơn đó.<br><br>Trường hợp bị đơn có nơi cư trú hoặc trụ sở ở nước ngoài thì Tòa án có thẩm quyền là Tòa án nơi cư trú hoặc nơi có trụ sở của nguyên đơn;<br><br>b) Đối với việc thay đổi Trọng tài viên của Hội đồng trọng tài vụ việc thì Tòa án có thẩm quyền là Tòa án nơi Hội đồng trọng tài giải quyết tranh chấp;<br><br>c) Đối với yêu cầu giải quyết khiếu nại quyết định của Hội đồng trọng tài về thỏa thuận trọng tài vô hiệu, thỏa thuận trọng tài không thể thực hiện được, thẩm quyền của Hội đồng trọng tài thì Tòa án có thẩm quyền là Tòa án nơi Hội đồng trọng tài ra quyết định;<br><br>d) Đối với yêu cầu Tòa án thu thập chứng cứ thì Tòa án có thẩm quyền là Tòa án nơi có chứng cứ cần được thu thập;<br><br>đ) Đối với yêu cầu Tòa án áp dụng biện pháp khẩn cấp tạm thời thì Tòa án có thẩm quyền là Tòa án nơi biện pháp khẩn cấp tạm thời cần được áp dụng;<br><br>e) Đối với việc triệu tập người làm chứng thì Tòa án có thẩm quyền là Tòa án nơi cư trú của người làm chứng;<br><br>g) Đối với yêu cầu hủy phán quyết trọng tài, đăng ký phán quyết trọng tài vụ việc thì Tòa án có thẩm quyền là Tòa án nơi Hội đồng trọng tài đã tuyên phán quyết trọng tài.<br><br>3. Tòa án có thẩm quyền đối với hoạt động trọng tài quy định tại khoản 1 và khoản 2 Điều này là Tòa án nhân dân tỉnh, thành phố trực thuộc trung ương.</code> |
|
356 |
+
| <code>Phát triển giáo dục không phải là quốc sách hàng đầu, đúng hay sai?</code> | <code>Phát triển giáo dục<br><br>1. Phát triển giáo dục là quốc sách hàng đầu.<br><br>2. Phát triển giáo dục phải gắn với nhu cầu phát triển kinh tế - xã hội, tiến bộ khoa học, công nghệ, củng cố quốc phòng, an ninh; thực hiện chuẩn hóa, hiện đại hóa, xã hội hóa; bảo đảm cân đối cơ cấu ngành nghề, trình độ, nguồn nhân lực và phù hợp vùng miền; mở rộng quy mô trên cơ sở bảo đảm chất lượng và hiệu quả; kết hợp giữa đào tạo và sử dụng.<br><br>3. Phát triển hệ thống giáo dục mở, xây dựng xã hội học tập nhằm tạo cơ hội để mọi người được tiếp cận giáo dục, được học tập ở mọi trình độ, mọi hình thức, học tập suốt đời.</code> | <code>Tổ chức và hoạt động giáo dục nghề nghiệp<br><br>Tổ chức và hoạt động giáo dục nghề nghiệp được thực hiện theo quy định của Luật này và Luật Giáo dục nghề nghiệp.<br><br><br><br>Tiểu mục 4<br><br>GIÁO DỤC ĐẠI HỌC</code> |
|
357 |
+
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
358 |
+
```json
|
359 |
+
{
|
360 |
+
"distance_metric": "TripletDistanceMetric.EUCLIDEAN",
|
361 |
+
"triplet_margin": 5
|
362 |
+
}
|
363 |
+
```
|
364 |
+
|
365 |
+
### Training Hyperparameters
|
366 |
+
#### Non-Default Hyperparameters
|
367 |
+
|
368 |
+
- `eval_strategy`: steps
|
369 |
+
- `num_train_epochs`: 1
|
370 |
+
- `multi_dataset_batch_sampler`: round_robin
|
371 |
+
|
372 |
+
#### All Hyperparameters
|
373 |
+
<details><summary>Click to expand</summary>
|
374 |
+
|
375 |
+
- `overwrite_output_dir`: False
|
376 |
+
- `do_predict`: False
|
377 |
+
- `eval_strategy`: steps
|
378 |
+
- `prediction_loss_only`: True
|
379 |
+
- `per_device_train_batch_size`: 8
|
380 |
+
- `per_device_eval_batch_size`: 8
|
381 |
+
- `per_gpu_train_batch_size`: None
|
382 |
+
- `per_gpu_eval_batch_size`: None
|
383 |
+
- `gradient_accumulation_steps`: 1
|
384 |
+
- `eval_accumulation_steps`: None
|
385 |
+
- `learning_rate`: 5e-05
|
386 |
+
- `weight_decay`: 0.0
|
387 |
+
- `adam_beta1`: 0.9
|
388 |
+
- `adam_beta2`: 0.999
|
389 |
+
- `adam_epsilon`: 1e-08
|
390 |
+
- `max_grad_norm`: 1
|
391 |
+
- `num_train_epochs`: 1
|
392 |
+
- `max_steps`: -1
|
393 |
+
- `lr_scheduler_type`: linear
|
394 |
+
- `lr_scheduler_kwargs`: {}
|
395 |
+
- `warmup_ratio`: 0.0
|
396 |
+
- `warmup_steps`: 0
|
397 |
+
- `log_level`: passive
|
398 |
+
- `log_level_replica`: warning
|
399 |
+
- `log_on_each_node`: True
|
400 |
+
- `logging_nan_inf_filter`: True
|
401 |
+
- `save_safetensors`: True
|
402 |
+
- `save_on_each_node`: False
|
403 |
+
- `save_only_model`: False
|
404 |
+
- `restore_callback_states_from_checkpoint`: False
|
405 |
+
- `no_cuda`: False
|
406 |
+
- `use_cpu`: False
|
407 |
+
- `use_mps_device`: False
|
408 |
+
- `seed`: 42
|
409 |
+
- `data_seed`: None
|
410 |
+
- `jit_mode_eval`: False
|
411 |
+
- `use_ipex`: False
|
412 |
+
- `bf16`: False
|
413 |
+
- `fp16`: False
|
414 |
+
- `fp16_opt_level`: O1
|
415 |
+
- `half_precision_backend`: auto
|
416 |
+
- `bf16_full_eval`: False
|
417 |
+
- `fp16_full_eval`: False
|
418 |
+
- `tf32`: None
|
419 |
+
- `local_rank`: 0
|
420 |
+
- `ddp_backend`: None
|
421 |
+
- `tpu_num_cores`: None
|
422 |
+
- `tpu_metrics_debug`: False
|
423 |
+
- `debug`: []
|
424 |
+
- `dataloader_drop_last`: False
|
425 |
+
- `dataloader_num_workers`: 0
|
426 |
+
- `dataloader_prefetch_factor`: None
|
427 |
+
- `past_index`: -1
|
428 |
+
- `disable_tqdm`: False
|
429 |
+
- `remove_unused_columns`: True
|
430 |
+
- `label_names`: None
|
431 |
+
- `load_best_model_at_end`: False
|
432 |
+
- `ignore_data_skip`: False
|
433 |
+
- `fsdp`: []
|
434 |
+
- `fsdp_min_num_params`: 0
|
435 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
436 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
437 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
438 |
+
- `deepspeed`: None
|
439 |
+
- `label_smoothing_factor`: 0.0
|
440 |
+
- `optim`: adamw_torch
|
441 |
+
- `optim_args`: None
|
442 |
+
- `adafactor`: False
|
443 |
+
- `group_by_length`: False
|
444 |
+
- `length_column_name`: length
|
445 |
+
- `ddp_find_unused_parameters`: None
|
446 |
+
- `ddp_bucket_cap_mb`: None
|
447 |
+
- `ddp_broadcast_buffers`: False
|
448 |
+
- `dataloader_pin_memory`: True
|
449 |
+
- `dataloader_persistent_workers`: False
|
450 |
+
- `skip_memory_metrics`: True
|
451 |
+
- `use_legacy_prediction_loop`: False
|
452 |
+
- `push_to_hub`: False
|
453 |
+
- `resume_from_checkpoint`: None
|
454 |
+
- `hub_model_id`: None
|
455 |
+
- `hub_strategy`: every_save
|
456 |
+
- `hub_private_repo`: False
|
457 |
+
- `hub_always_push`: False
|
458 |
+
- `gradient_checkpointing`: False
|
459 |
+
- `gradient_checkpointing_kwargs`: None
|
460 |
+
- `include_inputs_for_metrics`: False
|
461 |
+
- `eval_do_concat_batches`: True
|
462 |
+
- `fp16_backend`: auto
|
463 |
+
- `push_to_hub_model_id`: None
|
464 |
+
- `push_to_hub_organization`: None
|
465 |
+
- `mp_parameters`:
|
466 |
+
- `auto_find_batch_size`: False
|
467 |
+
- `full_determinism`: False
|
468 |
+
- `torchdynamo`: None
|
469 |
+
- `ray_scope`: last
|
470 |
+
- `ddp_timeout`: 1800
|
471 |
+
- `torch_compile`: False
|
472 |
+
- `torch_compile_backend`: None
|
473 |
+
- `torch_compile_mode`: None
|
474 |
+
- `dispatch_batches`: None
|
475 |
+
- `split_batches`: None
|
476 |
+
- `include_tokens_per_second`: False
|
477 |
+
- `include_num_input_tokens_seen`: False
|
478 |
+
- `neftune_noise_alpha`: None
|
479 |
+
- `optim_target_modules`: None
|
480 |
+
- `batch_eval_metrics`: False
|
481 |
+
- `batch_sampler`: batch_sampler
|
482 |
+
- `multi_dataset_batch_sampler`: round_robin
|
483 |
+
|
484 |
+
</details>
|
485 |
+
|
486 |
+
### Training Logs
|
487 |
+
| Epoch | Step | Training Loss | max_accuracy |
|
488 |
+
|:------:|:----:|:-------------:|:------------:|
|
489 |
+
| 0.1299 | 100 | - | 0.9883 |
|
490 |
+
| 0.2597 | 200 | - | 0.9929 |
|
491 |
+
| 0.3896 | 300 | - | 0.9968 |
|
492 |
+
| 0.5195 | 400 | - | 0.9987 |
|
493 |
+
| 0.6494 | 500 | 0.696 | 1.0 |
|
494 |
+
| 0.7792 | 600 | - | 0.9981 |
|
495 |
+
| 0.9091 | 700 | - | 0.9981 |
|
496 |
+
| 1.0 | 770 | - | 0.9981 |
|
497 |
+
|
498 |
+
|
499 |
+
### Framework Versions
|
500 |
+
- Python: 3.10.12
|
501 |
+
- Sentence Transformers: 3.0.0
|
502 |
+
- Transformers: 4.41.1
|
503 |
+
- PyTorch: 2.3.0+cu121
|
504 |
+
- Accelerate: 0.30.1
|
505 |
+
- Datasets: 2.19.2
|
506 |
+
- Tokenizers: 0.19.1
|
507 |
+
|
508 |
+
## Citation
|
509 |
+
|
510 |
+
### BibTeX
|
511 |
+
|
512 |
+
#### Sentence Transformers
|
513 |
+
```bibtex
|
514 |
+
@inproceedings{reimers-2019-sentence-bert,
|
515 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
516 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
517 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
518 |
+
month = "11",
|
519 |
+
year = "2019",
|
520 |
+
publisher = "Association for Computational Linguistics",
|
521 |
+
url = "https://arxiv.org/abs/1908.10084",
|
522 |
+
}
|
523 |
+
```
|
524 |
+
|
525 |
+
#### TripletLoss
|
526 |
+
```bibtex
|
527 |
+
@misc{hermans2017defense,
|
528 |
+
title={In Defense of the Triplet Loss for Person Re-Identification},
|
529 |
+
author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
|
530 |
+
year={2017},
|
531 |
+
eprint={1703.07737},
|
532 |
+
archivePrefix={arXiv},
|
533 |
+
primaryClass={cs.CV}
|
534 |
+
}
|
535 |
+
```
|
536 |
+
|
537 |
+
<!--
|
538 |
+
## Glossary
|
539 |
+
|
540 |
+
*Clearly define terms in order to be accessible across audiences.*
|
541 |
+
-->
|
542 |
+
|
543 |
+
<!--
|
544 |
+
## Model Card Authors
|
545 |
+
|
546 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
547 |
+
-->
|
548 |
+
|
549 |
+
<!--
|
550 |
+
## Model Card Contact
|
551 |
+
|
552 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
553 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,29 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
|
3 |
+
"architectures": [
|
4 |
+
"XLMRobertaModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"bos_token_id": 0,
|
8 |
+
"classifier_dropout": null,
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"gradient_checkpointing": false,
|
11 |
+
"hidden_act": "gelu",
|
12 |
+
"hidden_dropout_prob": 0.1,
|
13 |
+
"hidden_size": 768,
|
14 |
+
"initializer_range": 0.02,
|
15 |
+
"intermediate_size": 3072,
|
16 |
+
"layer_norm_eps": 1e-05,
|
17 |
+
"max_position_embeddings": 514,
|
18 |
+
"model_type": "xlm-roberta",
|
19 |
+
"num_attention_heads": 12,
|
20 |
+
"num_hidden_layers": 12,
|
21 |
+
"output_past": true,
|
22 |
+
"pad_token_id": 1,
|
23 |
+
"position_embedding_type": "absolute",
|
24 |
+
"torch_dtype": "float32",
|
25 |
+
"transformers_version": "4.41.1",
|
26 |
+
"type_vocab_size": 1,
|
27 |
+
"use_cache": true,
|
28 |
+
"vocab_size": 250002
|
29 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "2.0.0",
|
4 |
+
"transformers": "4.7.0",
|
5 |
+
"pytorch": "1.9.0+cu102"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:16221003308541f35f76b9741712a4757d401abe100cb3c1b750d65cfe06c53d
|
3 |
+
size 1112197096
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
sentencepiece.bpe.model
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
|
3 |
+
size 5069051
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
|
3 |
+
size 17082987
|
tokenizer_config.json
ADDED
@@ -0,0 +1,61 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"mask_token": "<mask>",
|
49 |
+
"max_length": 128,
|
50 |
+
"model_max_length": 128,
|
51 |
+
"pad_to_multiple_of": null,
|
52 |
+
"pad_token": "<pad>",
|
53 |
+
"pad_token_type_id": 0,
|
54 |
+
"padding_side": "right",
|
55 |
+
"sep_token": "</s>",
|
56 |
+
"stride": 0,
|
57 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
58 |
+
"truncation_side": "right",
|
59 |
+
"truncation_strategy": "longest_first",
|
60 |
+
"unk_token": "<unk>"
|
61 |
+
}
|