strongpear commited on
Commit
6bc2672
·
verified ·
1 Parent(s): aa75c64

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,783 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: BAAI/bge-m3
3
+ library_name: sentence-transformers
4
+ pipeline_tag: sentence-similarity
5
+ tags:
6
+ - sentence-transformers
7
+ - sentence-similarity
8
+ - feature-extraction
9
+ - generated_from_trainer
10
+ - dataset_size:148500
11
+ - loss:MultipleNegativesRankingLoss
12
+ widget:
13
+ - source_sentence: Thành phố San Fernando là một phần của nước nào và có bao nhiêu
14
+ dân số?
15
+ sentences:
16
+ - Boule-d'Amont là một xã trong vùng Occitanie, thuộc tỉnh Pyrénées-Orientales,
17
+ quận Prades, tổng Vinça. Tọa độ địa lý của xã là 42° 34' vĩ độ bắc, 02° 36' kinh
18
+ độ đông. Boule-d'Amont nằm trên độ cao trung bình là 483 mét trên mực nước biển,
19
+ có điểm thấp nhất là 234 mét và điểm cao nhất là 1.348 mét. Xã có diện tích 23,22 km²,
20
+ dân số vào thời điểm 1999 là 73 người; mật độ dân số là 3 người/km².
21
+ - 'Thành phố San Fernando là một trong ba thành phố lớn của Trinidad và Tobago,
22
+ là đô thị lớn thứ hai. Thành phố có diện tịch 18 km² và nằm ở phía tây nam của
23
+ đảo Trinidad. Nó giáp sông Guaracara về phía bắc, giáp sông Oropouche về phía
24
+ nam, giáp quốc lộ Sir Solomon Hochoy về phía đông, và vịnh Paria về phía tây.
25
+ Dân số ước tính năm 2000 là 62.000 người. Đô thị San Fernando được nâng cấp thành
26
+ thành phố ngày 18 tháng 11 năm 1988. Khẩu hiệu của San Fernando là: "Sanitas Fortis"
27
+ - "Trong một môi trường lành mạnh chúng ta sẽ tìm thấy sức mạnh".'
28
+ - 'Các dự án quân sự bản địa khác liên quan đến việc thiết kế và bổ sung hàng không
29
+ mẫu hạm lớp "Vikrant" và tàu ngầm hạt nhân lớp "Arihant".
30
+
31
+ Sau khi kết thúc Chiến tranh Lạnh,Ấn Độ tăng cường hợp tác về kinh tế,chiến lược
32
+ và quân sự với Hoa Kỳ và Liên minh châu Âu. Năm 2008, Hoa Kỳ và Ấn Độ ký kết một
33
+ thỏa thuận hạt nhân dân sự.Mặc dù đương thời Ấn Độ là quốc gia sở hữu vũ khí hạt
34
+ nhân và không phải là một bên tham gia của Hiệp ước không phổ biến vũ khí hạt
35
+ nhân,song quốc gia này vẫn nhận được sự miễn trừ từ Cơ quan Năng lượng Nguyên
36
+ tử Quốc tế và Nhóm các nhà cung cấp hạt nhân,do vậy thoát khỏi các hạn chế,rào
37
+ cản trước đây đối với công nghệ và thương mại hạt nhân. Như một hệ quả, Ấn Độ
38
+ trở thành quốc gia thứ sáu sở hữu vũ khí hạt nhân "trên thực tế". Ấn Độ sau đó
39
+ ký kết các thỏa thuận hợp tác liên quan đến năng lượng hạt nhân dân sự với Nga,
40
+ Pháp, Anh Quốc, và Canada.
41
+
42
+ Tổng thống Ấn Độ là thống soái tối cao của lực lượng vũ trang quốc gia với 1,6
43
+ triệu quân tại ngũ và xếp thứ ba thế giới trên tiêu chí này. Quân đội Ấn Độ gồm
44
+ có lục quân, hải quân, và không quân; các tổ chức phụ trợ gồm có Bộ tư lệnh chiến
45
+ lược (Strategic Forces Command) và ba nhóm bán quân sự: Đội quân súng trường Assam,
46
+ Lực lượng biên cảnh đặc chủng, và Lực lượng bảo vệ bờ biển Ấn Độ. Ngân sách quốc
47
+ phòng chính thức của Ấn Độ giai đoạn 2012-17 chiếm khoảng 2,5% GDP. Năm 2012,
48
+ Ấn Độ là nước nhập khẩu vũ khí lớn nhất thế giới;từ năm 2007 đến năm 2011, tiền
49
+ mua vũ khí của Ấn Độ chiếm 10% tổng phí tổn dành cho mua sắm vũ khí. Phần lớn
50
+ chi tiêu quân sự tập trung vào phòng thủ đối với riêng Pakistan và chống lại ảnh
51
+ hưởng ngày càng gia tăng của Trung Quốc tại Ấn Độ Dương.
52
+
53
+ Một trận ẩu đả dữ dội giữa quân đội Trung Quốc và Ấn Độ tại khu vực lãnh thổ tranh
54
+ chấp đã làm 20 binh sĩ Ấn Độ và ít nhất 4 binh sĩ Trung Quốc thiệt mạng.'
55
+ - source_sentence: Sự khác biệt giữa các loại sao về nhiệt độ bề mặt là gì?
56
+ sentences:
57
+ - 'Một khi việc cấp phát vùng nhớ động không còn cần thiết nữa thì phần bộ nhớ đó
58
+ nên được trả về cho hệ điều hành. Thao tác này có thể tiến hành bằng hàm codice_134.
59
+ Nó cần một tham số: tên của con trỏ mà trước đây đã xin cấp phát vùng nhớ. Một
60
+ cách an toàn hơn là sau khi đã trả vùng nhớ về cho hệ điều hành, người lập trình
61
+ cũng nên cài (hay gán) cho con trỏ liên đới giá trị codice_135 để hủy bỏ địa chỉ
62
+ mà nó đang chỉ tới (nhằm tránh gây ra các hiệu ứng phụ do việc tham chiếu của
63
+ con trỏ này có thể gây ra).
64
+
65
+ Các mảng đa chiều.
66
+
67
+ C có hỗ trợ việc dùng mảng đa chiều. Việc định nghĩa chúng giống như là tạo ra
68
+ "mảng của các mảng ", mặc dù vậy trong thực tế nó không hoàn toàn đúng. Cú pháp
69
+ sau:
70
+
71
+ sẽ định nghĩa một mảng hai chiều; chiều thứ nhất có codice_136 phần tử. Chiều
72
+ thứ hai sẽ có codice_137 các phần tử—một tập hợp của codice_138 các phần tử mà
73
+ mỗi phần tử là một chiều thứ nhất.
74
+
75
+ Các mảng đa chiều hoàn toàn có thể được xem như là dãy của các con trỏ. Trong
76
+ thí dụ trên, codice_139 (nếu codice_136 là 1) sẽ là một tham chiếu giá trị nguyên
77
+ mà nó chỉ tới một mảng của codice_138 các phần tử.
78
+
79
+ Dãy ký tự.
80
+
81
+ Dãy ký tự có thể được thay đổi nội dung của nó mà không cần đến thư viện chuẩn.
82
+ Tuy nhiên, thư viện này có nhiều hàm có thể dùng cho cả dãy ký tự có kết thúc
83
+ 0 và mảng không có ký tự kết thúc kiểu codice_84. Trong phần này từ "dãy" được
84
+ để chỉ dãy ký tự.
85
+
86
+ Các hàm thường dùng là:
87
+
88
+ Các hàm ít dùng tới hơn là:
89
+
90
+ Tập tin I/O.
91
+
92
+ Trong C, I/O được tiến hành qua một nhóm các hàm trong thư viện chuẩn. Trong ANSI/ISO
93
+ C, những hàm đó được định nghĩa trong codice_202.
94
+
95
+ Tiêu chuẩn I/O.
96
+
97
+ Ba tiêu chuẩn dòng I/O được định nghĩa sẵn là:
98
+
99
+ Các dòng này được tự động mở và đóng lại bởi môi trường của thời gian thi hành,
100
+ chúng không cần và không nên được mở một cách rõ ràng.
101
+
102
+ Thí dụ sau minh họa làm thế nào một chương trình bộ lọc được cấu trúc một cách
103
+ điển hình:
104
+
105
+ Việc chuyển các đối số qua dòng lệnh.'
106
+ - "Số lượng nguyên tử chì cao cũng làm tăng mật độ của vật liệu, vì chì có trọng\
107
+ \ lượng nguyên tử rất cao là 207,2, so với 40,08 đối với calci. Mật độ của ly\
108
+ \ soda là 2,4g/cm³ hoặc thấp hơn, trong khi tinh thể chì điển hình có mật độ khoảng\
109
+ \ 3,1g/cm³ và kính chì cao có thể trên 4,0g/cm³ hoặc thậm chí lên tới 5,9g/cm³\
110
+ \ \nSự sáng chói của tinh thể chì phụ thuộc vào chỉ số khúc xạ cao gây ra bởi\
111
+ \ hàm lượng chì. Thủy tinh thông thường có chiết suất \"n\" = 1,5, trong khi việc\
112
+ \ bổ sung chì tạo ra phạm vi lên tới 1,7 hoặc 1,8. Chỉ số khúc xạ tăng cao này\
113
+ \ cũng tương quan với độ tán sắc tăng, đo mức độ mà môi trường phân tách ánh sáng\
114
+ \ thành quang phổ thành phần của nó, như trong lăng kính. Kỹ thuật cắt pha lê\
115
+ \ khai thác các tính chất này để tạo ra hiệu ứng lấp lánh rực rỡ khi mỗi khía\
116
+ \ cạnh cắt phản xạ và truyền ánh sáng qua vật thể. Chỉ số khúc xạ cao rất hữu\
117
+ \ ích cho việc chế tạo ống kính, vì có thể đạt được độ dài tiêu cự nhất định với\
118
+ \ ống kính mỏng hơn. Tuy nhiên, độ phân tán phải được hiệu chỉnh bởi các thành\
119
+ \ phần khác của hệ thống thấu kính nếu nó bị mờ.\nViệc bổ sung oxide chì vào thủy\
120
+ \ tinh kali cũng làm giảm độ nhớt của nó, khiến nó lỏng hơn thủy tinh soda thông\
121
+ \ thường trên nhiệt độ làm mềm (khoảng ), với điểm làm việc là . Độ nhớt của thủy\
122
+ \ tinh thay đổi hoàn toàn theo nhiệt độ, nhưng thủy tinh chì nhỏ hơn khoảng 100\
123
+ \ lần so với kính soda thông thường trong phạm vi nhiệt độ làm việc (lên tới ).\
124
+ \ Từ quan điểm của thợ làm kính, điều này dẫn đến hai sự phát triển thực tế. Đầu\
125
+ \ tiên, thủy tinh chì có thể được chế tạo ở nhiệt độ thấp hơn, dẫn đến việc sử\
126
+ \ dụng nó trong việc tráng men, và thứ hai, các mạch rõ ràng có thể được làm sạch\
127
+ \ khỏi bọt khí bị kẹt với độ khó thấp hơn đáng kể so với kính thông thường, cho\
128
+ \ phép chế tạo các vật thể hoàn hảo, rõ ràng.\nKhi gõ, pha lê chì tạo ra âm thanh\
129
+ \ vang lên, không giống như kính thông thường. Người tiêu dùng vẫn dựa vào đặc\
130
+ \ tính này để phân biệt với kính rẻ hơn."
131
+ - 'Nhiệt độ bề mặt của sao, cùng với độ sáng biểu kiến tuyệt đối và các đặc trưng
132
+ của vạch hấp thụ trong quang phổ, thường được sử dụng để phân loại sao (xem phân
133
+ loại bên dưới).
134
+
135
+ Các sao khối lượng lớn ở dải chính có nhiệt độ bề mặt lên tới 50.000 K. Các sao
136
+ nhỏ hơn như Mặt Trời có nhiệt độ 6000 K. Những sao khổng lồ đỏ có nhiệt độ bề
137
+ mặt tương đối thấp vào khoảng 3.600 K, nhưng chúng cũng có độ trưng tương đối
138
+ lớn do diện tích mặt ngoài lớn.
139
+
140
+ Bức xạ.
141
+
142
+ Năng lượng được sản xuất ra bởi sao, là sản phẩm của phản ứng tổng hợp hạt nhân,
143
+ bức xạ vào trong không gian bằng cả bức xạ điện từ và bức xạ hạt. Ngôi sao phát
144
+ ra bức xạ hạt cũng chính là gió Sao Thổi vào không gian (tồn tại như là một dòng
145
+ các hạt tích điện ổn định, như proton, hạt anpha, và hạt beta, thoát ra từ các
146
+ lớp ngoài cùng của sao) và dòng ổn định các hạt neutrino thoát ra từ lõi sao.
147
+
148
+ Sản phẩm năng lượng tại lõi cũng là nguyên nhân tại sao ngôi sao chiếu sáng: mỗi
149
+ lần hai hoặc nhiều hơn hạt nhân nguyên tử của một nguyên tố tổng hợp với nhau
150
+ để tạo thành một hạt nhân của nguyên tố mới nặng hơn, các photon tia gamma được
151
+ giải phóng từ phản ứng tổng hợp hạt nhân. Năng lượng này được biến đổi thành các
152
+ dạng năng lượng điện từ khác, bao gồm ánh sáng khả kiến, theo thời gian chúng
153
+ truyền đến các lớp bên ngoài của sao.
154
+
155
+ Màu sắc của một sao, được xác định bởi đỉnh tần số của ánh sáng khả kiến, phụ
156
+ thuộc vào nhiệt độ các lớp ngoài cùng của ngôi sao, bao gồm quang quyển của nó.
157
+ Bên cạnh ánh sáng khả kiến, ngôi sao cũng phát ra các dạng bức xạ điện từ không
158
+ nhìn thấy được bằng mắt thường. Thực tế bức xạ điện từ phát ra từ ngôi sao trải
159
+ rộng trên toàn phổ điện từ, từ bước sóng dài nhất là sóng radio, hồng ngoại cho
160
+ đến bước sóng ngắn nhất như tia tử ngoại, tia X, và tia gamma. Mọi bước sóng bức
161
+ xạ điện từ của ngôi sao, cả nhìn thấy và không nhìn thấy, đều có ý nghĩa quan
162
+ trọng.
163
+
164
+ Sử dụng phổ của ngôi sao, các nhà thiên văn cũng xác định được nhiệt độ bề mặt,
165
+ hấp dẫn tại bề mặt, tính kim loại (metallicity) và vận tốc tự quay của sao.'
166
+ - source_sentence: Tại sao vấn đề Đài Loan độc lập lại phức tạp?
167
+ sentences:
168
+ - 'Marie-Ségolène Royal (sinh ngày 22 tháng 9 năm 1953 tại Dakar, Senegal, Tây Phi
169
+ thuộc Pháp), được gọi là Ségolène Royal (), là một chính trị gia Pháp. Bà là chủ
170
+ tịch Hội đồng Vùng Nouvelle-Aquitaine, một cựu thành viên của Quốc hội, cựu bộ
171
+ trưởng trong chính phủ, và là một thành viên có ảnh hưởng của Đảng Xã hội Pháp.
172
+ Người phụ nữ đầu tiên tại Pháp được chỉ định bởi một đảng lớn làm ứng cử viên
173
+ trong cuộc bầu cử tổng thống Pháp năm 2007 nhưng đã thua cuộc trước Nicolas Sarkozy
174
+ ngày 6 tháng 5 năm 2007.
175
+
176
+ Ngày 28 tháng 11 năm 2008, Royal tuyên bố tư cách ứng cử viên cho cuộc bầu cử
177
+ Tổng thống Pháp trong cuộc bầu cử tổng thống năm 2012.
178
+
179
+ Tuổi trẻ.
180
+
181
+ Ségolène Royal ra đời tại một căn cứ quân sự ở Ouakam, Dakar, Senegal ngày 22
182
+ tháng 9 năm 1953, là con gái của Hélène Dehaye và Jacques Royal, một cựu sĩ quan
183
+ pháp binh và trợ lý cho thị trưởng Chamagne (Vosges).
184
+
185
+ Cha mẹ bà đã sinh tám người con trong chín năm: Marie-Odette, Marie-Nicole, Gérard,
186
+ Marie-Ségolène, Antoine, Paul, Henri và Sigisbert.
187
+
188
+ Sau khi học xong trung học, Marie-Ségolène vào trường đại học địa phương nơi bà
189
+ tốt nghiệp ở vị trí thứ hai trong lớp ngành Kinh tế. Chị cả của bà sau đó hướng
190
+ bà chuẩn bị cho kỳ thi đầu vào Sciences Po và bà được học bổng tại đây. Trong
191
+ trường bà nghiên cứu chính trị của lớp và sự bình đẳng nam nữ. ("Sciences Po"
192
+ khi ấy có tới 85% sinh viên thuộc tầng lớp trên người Paris và chủ yếu là nam
193
+ giới). Mùa hè năm 1971, bà làm công không lương tại Dublin, Ireland. Năm 1972,
194
+ khi 19 tuổi, Royal đã kiện cha mình vì ông từ chối li dị mẹ bà và trả tiền cấp
195
+ dưỡng và tiền nuôi dạy con cho việc học tập của các con. Bà thắng kiện sau nhiều
196
+ năm hầu toà, ngay trước khi Jacques Royal chết vì ung thư phổi năm 1981. Sáu trong
197
+ tám người con đã từ chối gặp lại ông, trong đó có cả Ségolène.
198
+
199
+ Royal, như hầu hết giới tinh hoa chính trị Pháp, là người tốt nghiệp Trường Hành
200
+ chính quốc gia (ENA). Bà học cùng lớp với người bạn đời trong 30 năm, François
201
+ Hollande (bà gặp ông tại một bữa tiệc), và Dominique de Villepin (thủ tướng dưới
202
+ thời Jacques Chirac).'
203
+ - 'Mặc dù Trung Hoa Dân Quốc thống trị khu vực Đài Loan từ thập niên 1950 có tính
204
+ độc lập, đồng thời đa số dân chúng cho rằng tự thân có chủ quyền quốc gia, song
205
+ do chịu uy hiếp quân sự của nước Cộng hòa Nhân dân Trung Hoa, khiến vấn đề Đài
206
+ Loan độc lập cực kỳ phức tạp. Đại bộ phận dân chúng hy vọng duy trì hiện trạng
207
+ hai bờ eo biển Đài Loan, song số lượng người chủ trương độc lập đông hơn người
208
+ chủ trương thống nhất. Ngoài ra, một bộ phận nhân sĩ chủ trương việc Trung Hoa
209
+ Dân Quốc thu hồi Đài Loan theo "Tuyên bố Cairo" có tranh nghị, cho rằng Trung
210
+ Hoa Dân Quốc chỉ đại diện cho Đồng Minh chiếm lĩnh quân sự Đài Loan và Bành Hồ;
211
+ đồng thời căn cứ theo Hiệp ước San Francisco tuyên bố chủ quyền Đài Loan chưa
212
+ xác định,cho rằng Trung Hoa Dân Quốc là chính phủ lưu vong nước ngoài từ miền
213
+ eo biển bên kia.
214
+
215
+ Hành chính.
216
+
217
+ Sau khi chính phủ Trung Hoa Dân Quốc dời sang Đài Loan vào năm 1949, họ chỉ có
218
+ thể thống trị các đảo thuộc tỉnh Đài Loan (bao gồm đảo Đài Loan, quần đảo Bành
219
+ Hồ) và tỉnh Phúc Kiến (bao gồm Kim Môn, Mã Tổ). Ngoài ra, chính phủ Trung Hoa
220
+ Dân Quốc còn khống chế quần đảo Đông Sa, và đảo Ba Bình thuộc quần đảo Trường
221
+ Sa trên biển Đông, giao các đảo này cho thành phố Cao Hùng phụ trách quản lý.
222
+ Trung Hoa Dân Quốc tham gia tranh chấp chủ quyền quần đảo Trường Sa (gọi là Nam
223
+ Sa) và quần đảo Senkaku (gọi là Điếu Ngư đài). Từ năm 1949 trở đi, chính phủ Trung
224
+ Hoa Dân Quốc từng nhiều lần cải cách phân chia hành chính nhằm tổng hợp phát triển
225
+ khu vực. Trong đó, chức năng của chính phủ cấp tỉnh của tỉnh Phúc Kiến và tỉnh
226
+ Đài Loan lần lượt được tinh giản vào năm 1956 và 1998, chỉ duy trì công tác mang
227
+ tính tượng trưng.
228
+
229
+ Ngoài ra, vào năm 1967 và năm 1979, thành phố Đài Bắc và thành phố Cao Hùng lần
230
+ lượt được tách khỏi tỉnh Đài Loan để chuyển sang trực thuộc trung ương. Năm 2010,
231
+ chính phủ lại chuyển các thành phố Tân Bắc, Đài Trung, Đài Nam sang trực thuộc
232
+ trung ương. Năm thành phố này cũng là năm thành thị trọng yếu nhất của Trung Hoa
233
+ Dân Quốc hiện nay, trong đó Tân Bắc nguyên là huyện Đài Bắc, Đài Trung cùng Đài
234
+ Nam và Cao Hùng hợp nhất với các huyện cùng tên.'
235
+ - 'Theo luật, Quỹ bao gồm một hội đồng quản trị của năm công dân Thụy Điển hay Na
236
+ Uy, với trụ sở tại Stockholm. Chủ tịch Hội đồng quản trị được Vua Thụy Điển bổ
237
+ nhiệm, với bốn thành viên khác do ủy thác của các tổ chức trao giải thưởng bổ
238
+ nhiệm. Một giám đốc điều hành được lựa chọn trong số các thành viên hội đồng quản
239
+ trị, Phó giám đốc được Vua Thụy Điển bổ nhiệm, và hai phó chủ tịch được bổ nhiệm
240
+ do người được ủy thác. Tuy nhiên, kể từ năm 1995, tất cả các thành viên của hội
241
+ đồng quản trị được lựa chọn bởi các ủy viên quản trị; Giám đốc điều hành và các
242
+ Phó Giám đốc chỉ định bởi chính hội đồng quản trị. Cũng như hội đồng quản trị,
243
+ Quỹ Nobel được tạo thành từ các tổ chức trao giải (Viện Hàn lâm Khoa học Hoàng
244
+ gia Thụy Điển, Đại hội đồng Nobel tại Viện Karolinska, Viện Hàn lâm Thụy Điển,
245
+ và các Ủy ban Nobel Na Uy), người được ủy thác của các tổ chức trên, và các kiểm
246
+ toán viên.
247
+
248
+ Huy chương Nobel.
249
+
250
+ Huy chương Nobel làm bằng 150 gram vàng 18 ca-ra chạm hình Alfred Nobel. Mặt sau
251
+ của tấm huy chương giải Nobel Vật lý và Hóa học là hình một phụ nữ để ngực trần.
252
+
253
+ Một số tấm huy chương Nobel đã được chủ nhân mang ra bán đấu giá. Tấm huy chương
254
+ Nobel Hòa bình được bán rẻ nhất trong đấu giá đó là của Aristide Briand, người
255
+ Pháp đã có đóng góp lớn trong năm 1926 vào cuộc hoà hợp ngắn ngủi Đức – Pháp.
256
+ Năm 2008 huy chương Nobel này được bảo tàng Ecomusée của Saint-Nazaire mua về
257
+ với khoản tiền 12 nghìn euro. Khá hơn một chút, huy chương Nobel Hoà bình của
258
+ người Anh William Randal Cremer vinh danh năm 1903 đã bán với giá 17.000 đô la
259
+ tại một cuộc đấu giá năm 1985.
260
+
261
+ Từ năm 2014, vi��c bán huy chương Nobel trở nên phổ thông. Cho tới giờ 8 huy chương
262
+ đã được bán kể từ đó. Cũng về giải Nobel Hoà bình, tấm huy chương của người Bỉ
263
+ Auguste Beernaert (được trao năm 1909) đã đạt tới giá 661 nghìn đô la và huy chương
264
+ Nobel của Carlos Saavedra Lamas, người Argentina, nhận năm 1936, thậm chí đã tìm
265
+ được người mua với giá kỷ lục 1,16 triệu đô la.
266
+
267
+ Kỷ lục hiện nay là huy chương của James Watson, người Mỹ được nhận giải nobel
268
+ Y học năm 1962 cho những phát hiện ra cấu trúc DNA. Ông đã bán được tấm huy chương
269
+ Nobel của mình với giá 4,76 triệu đô la Mỹ vào tháng 12/2014.'
270
+ - source_sentence: Phong trào kháng chiến Na Uy đã hoạt động như thế nào trong thời
271
+ gian chiếm đóng?
272
+ sentences:
273
+ - 'Michael Walzer (3/3/1935) là một trong số các triết gia chính trị hàng đầu của
274
+ Mỹ, giáo sư về hưu của Institute for Advanced Study, Đại học Princeton ở New Jersey,
275
+ đồng thời là tổng biên tập tạp chí khoa học Dissent, theo thiên hướng cánh tả,
276
+ ra hàng quý, về chính trị và văn hóa. Các đề tài của ông trải rộng từ tính hợp
277
+ pháp của các cuộc chiến cho tới dân tộc và nhân chủng học, kinh tế, xã hội và
278
+ trách nhiệm chính trị, với 27 sách và 300 bài viết, thành viên của hội triết gia
279
+ Hoa Kỳ.
280
+
281
+ Sinh ở New York City, nhưng Walzer xuất thân từ một gia đình Do Thái gốc Đông
282
+ Âu, được đào tạo bậc đại học trong ngôi trường Do Thái đầu tiên trên đất Mỹ Brandeis
283
+ University. Một phần do môi trường chính trị Hoa Kỳ không có nhiều chỗ hoạt động
284
+ cho cánh tả mà ông quyết định xuống đường cùng phong trào sinh viên chống Chiến
285
+ tranh Việt Nam.
286
+
287
+ Một trong số các phạm trù chính của Walzer là khái niệm "communitarianism" trong
288
+ chính trị học, bên cạnh các tên tuổi như Alasdair MacIntyre và Michael Sandel.
289
+ Khái niệm này có lẽ nên được tạm dịch là Chủ nghĩa cộng đồng, vì nó liên quan
290
+ và bắt nguồn từ chữ "community", và đề cao các giá trị chung trong khuôn khổ xã
291
+ hội công dân ("civic society") như một phản đề đối với chủ nghĩa cá nhân, và có
292
+ khác với "communalism", tức là Chủ nghĩa công xã, và tất nhiên còn khác xa với
293
+ Chủ nghĩa cộng sản - "communism". Walzer cũng đóng góp nhiều trong lý thuyết về
294
+ cuộc chiến chính nghĩa - "just war".
295
+
296
+ Walzer cho rằng mỗi lý thuyết chính trị cần phải khởi nguồn từ một xã hội nhất
297
+ định với truyền thống và văn hóa riêng, phản đối xu hướng trừu tượng hóa triết
298
+ học chính trị. Mô hình "communitarian" theo cách hiểu của Walzer là một xã hội
299
+ với những sự bình đẳng không đồng nhất - "complex equality". Theo đó, thước đo
300
+ của bình đẳng không chỉ đơn giản là vật chất hay đạo đức, mà nên hiểu theo nghĩa
301
+ công bằng một cách công bình ("egalitarian justice"), tức là phân phối hàng hóa
302
+ (vật chất và đạo đức) tùy thuộc vào giá trị xã hội của nó và không được phép (tiền
303
+ và quyền lực chính trị cũng là một thứ hàng hóa) chiếm ưu thế hoặc thay đổi sự
304
+ phân phối của các loại hàng hóa khác trong các lãnh vực khác.'
305
+ - 'Vua Haakon và chính phủ Na Uy tiếp tục cuộc chiến trong hoàn cảnh tị nạn tại
306
+ Rotherhithe, Luân Đôn. Vào ngày cuộc xâm lược diễn ra, vị đồng lãnh đạo của Đảng
307
+ Quốc gia-Xã hội nhỏ Nasjonal Samling — Vidkun Quisling — đã tìm cách lên nắm quyền
308
+ lực, nhưng đã bị quân chiếm đóng Đức gạt ra rìa. Quyền lực thực sự nằm trong tay
309
+ chính quyền chiếm đóng Đức, Reichskommissar Josef Terboven. Quisling, với tư cách
310
+ "bộ trưởng tổng thống", sau này đã thành lập một chính phủ liên minh dưới sự quản
311
+ lý của Đức. Các cơ sở tại Na Uy đã chế tạo nước nặng, một nguyên liệu chủ chốt
312
+ chế tạo vũ khí hạt nhân, và cuối cùng đã bị người Đức bỏ lại sau nhiều nỗ lực
313
+ phá huỷ cơ sở Vemork của người Na Uy, người Anh và người Mỹ. Trong những năm chiếm
314
+ đóng của Phát xít, người Na Uy đã xây dựng một phong trào kháng chiến mạnh chống
315
+ lại các lực lượng chiếm đóng Đức bằng cả chiến tranh vũ trang và bất tuân dân
316
+ sự. Tuy nhiên, yếu tố quan trọng hơn với Đồng Minh, là vai trò của hải quân thương
317
+ mại Na Uy. Ở thời điểm xảy ra cuộc xâm lược, Na Uy có hạm đội tàu biển thương
318
+ mại đứng hàng thứ tư thế giới (cũng như có tốc độ nhanh nhất và hiệu quả nhất).
319
+ Công ty tàu biển Na Uy Nortraship đã nằm dưới sự điều khiển của Đồng Minh trong
320
+ suốt cuộc chiến và tham gia vào mọi chiến dịch từ việc sơ tán Dunkirk tới cuộc
321
+ đổ bộ vào Normandy.
322
+
323
+ Sau cuộc chiến, những thành viên đảng Dân chủ Xã hội lên nắm quyền và lãnh đạo
324
+ quốc gia trong hầu hết thời gian cuộc chiến tranh lạnh. Na Uy đã gia nhập NATO
325
+ năm 1949, và trở thành một đồng minh thân cận của Hoa Kỳ. Hai cuộc trưng cầu dân
326
+ ý nhằm gia nhập Liên minh châu Âu (được gọi là Cộng đồng châu Âu năm 1972) đã
327
+ thất bại với tỷ số mong manh năm 1972 và 1994. Những nguồn dự trữ dầu mỏ và khí
328
+ gas lớn đã được khám phá trong thập niên 1960, dẫn tới sự bùng nổ kinh tế sau
329
+ đó.
330
+
331
+ Địa lý, khí hậu và môi trường.
332
+
333
+ Na Uy gồm phần phía tây của Scandinavia ở Bắc Âu. Bờ biển lởm chởm, bị chia cắt
334
+ bởi nhiều vịnh hẹp (fjord) và khoảng 50.000 hòn đảo, trải dài hơn 2.500 km.'
335
+ - 'Các vị sư trong chùa tu hành theo tông phái nào cũng không quan trọng, miễn là
336
+ các vị sư này giữ gìn được các giáo giới quan trọng nhất của Phật giáo (không
337
+ sát sinh, không trộm cắp, không phạm sắc giới, không uống rượu, không ăn thịt).
338
+ Họ cũng không có hiểu biết sâu sắc về giáo lý Phật giáo mà chỉ hiểu đơn giản là
339
+ thiện nghiệp thiện báo hoặc thậm chí hiểu sai lạc cúng dường cho chùa nhiều thì
340
+ thiện báo. Có người đến chùa chỉ để cầu xin cho bản thân và coi Phật như là thần
341
+ linh có thể giúp họ toại nguyện chứ không hiểu rằng những gì họ nhận được chính
342
+ là kết quả của những gì họ tạo ra. Còn những sinh hoạt như cúng bái, cầu siêu,
343
+ cầu an, bói toán, thỉnh vong, đốt vàng mã... là những hoạt động được du nhập vào
344
+ Phật giáo từ Nho giáo, Đạo giáo và Shaman giáo.
345
+
346
+ Trung Quốc.
347
+
348
+ "Bài chi tiết: Phật giáo Trung Quốc"
349
+
350
+ Theo sử liệu cho thấy Phật giáo được giới thiệu đến Trung Quốc do các nhà buôn
351
+ hay các nhà sư truyền giáo người Ấn qua các ngã đường biển và đường bộ. Về đường
352
+ biển thì xuất phát từ các hải cảng vùng Nam Ấn rồi qua ngã Sri Lanka, Nam Dương
353
+ để vào hải cảng Quảng Đông. Về đường bộ, còn gọi là con đường tơ lụa (Silk road)
354
+ nối liền Đông Tây, di chuyển bằng lạc đà, xuất phát từ miền Đông Bắc Ấn, rồi băng
355
+ qua các sa mạc ở Trung Á để tới Lạc Dương (kinh đô của nhà Hán).
356
+
357
+ Theo biên niên sử thì Phật giáo truyền đến Trung Quốc vào thế kỷ thứ 2 trước Công
358
+ Nguyên từ Trung Á nhằm niên hiệu Nguyên Thọ đời vua Hán Ai Đế nhà Tây Hán, nhưng
359
+ Phật giáo không truyền bá rộng rãi cho đến năm 65 Công nguyên, dưới triều vua
360
+ Hán Minh Đế (niên hiệu Vĩnh Bình thứ 10 nhà Hậu Hán, 25-220 công nguyên), thì
361
+ Phật giáo mới bắt đầu cắm rễ và phát triển ở Trung Quốc. Vì muốn thần dân tu học
362
+ Phật pháp nên vua Minh Đế đã cử một phái đoàn gồm 18 người đến Ấn Độ để thỉnh
363
+ cầu hai Thiền sư người Ấn là Ca Diếp Ma Đằng (Kàsyapama''tanga) và Trúc Pháp Lan
364
+ (Dharmaraksa) đến Trung Quốc hoằng pháp.'
365
+ - source_sentence: Quận Sông Bé được thành lập vào thời điểm nào và dựa trên cơ sở
366
+ nào?
367
+ sentences:
368
+ - 'Quang Châu có thể là:'
369
+ - 'Mạng lưới sông rạch.
370
+
371
+ Toàn huyện có 355 km kênh mương thủy lợi chính, gồm 80 km kênh cấp I và 275 km
372
+ kênh cấp II, bình quân 1 ha đất canh tác có 12,62m kênh mương thủy lợi.
373
+
374
+ Do nằm ven sông Cổ Chiên và có cù lao Hoà Minh – Long Hoà chạy dài ra sát cửa
375
+ Cung Hầu nên huyện Châu Thành chịu ảnh hưởng chế độ bán nhật trìêu của biển Đông,
376
+ thông qua đoạn sông Cổ Chiên vào các hệ thống sông rạch lớn như: Láng Thé – Ba
377
+ Si – Ô Chát, sông Trà Vinh – Kinh Thống Nhất hệ Tầm Phương, sông Bãi Vàng – Vinh
378
+ Kim. Ngoài ra, do yêu cầu tiếp ngọt với hai cống ngăn mặn Đa Lộc, Hiệp Hòa vào
379
+ mùa khô, nguồn nước từ Cầu Quan (sông Hậu) được đưa sang kinh Thống Nhất và Trà
380
+ Vinh. Trong ngày nước lên xuống hai l���n, mỗi tháng có 2 lần triều cường sau ngày
381
+ 1 và ngày 15 âl và 2 lần triều kèm sau ngày 7 và 23 âl (từ 2 đến 3 ngày), biên
382
+ độ triều hàng ngày rất lớn, nhất là các khu vực gần cửa sông.
383
+
384
+ Biên độ tắt dần khi vào nội đồng, đặc biệt vào mùa triều cường (tháng 10,12 dương
385
+ lịch) đối với vùng kinh Thông Nhất qua ngọn Ô Chát chịu ảnh hưởng chung của sông
386
+ Cổ Chiên và sông Hậu, biên độ triều hàng ngày nhỏ và hầu như không đáng kể vào
387
+ thời kỳ triều cường nhất trong năm. Một số vùng thấp (Thanh Mỹ – Đa Lộc) có thời
388
+ gian nước trên đồng không rút được, dù độ ngập không lớn.
389
+
390
+ Vào mùa khô, triều cường và gió chướng đã đưa nước mặn xâm nhập vào nội đồng,
391
+ độ mặn trung bình thay đổi từ 2,24‰ -9,96‰ từ cuối tháng 1 đến tháng 6, tuy nhiên
392
+ tháng tư có độ mặn cao nhất trên 18‰ (Hưng Mỹ). Các cửa sông gần biển thì độ mặn
393
+ càng cao. Do dự trữ nước nội đồng và nguồn bổ sung từ trên xuống, từ sông Hậu
394
+ sang nên độ mặn giảm dần khi vào nội đồng.
395
+
396
+ Hành chính.
397
+
398
+ Huyện Châu Thành có 14 đơn vị hành chính cấp xã trực thuộc, bao gồm thị trấn Châu
399
+ Thành và 13 xã: Đa Lộc, Hòa Lợi, Hòa Minh, Hòa Thuận, Hưng Mỹ, Long Hòa, Lương
400
+ Hòa, Lương Hòa A, Mỹ Chánh, Nguyệt Hóa, Phước Hảo, Song Lộc, Thanh Mỹ.
401
+
402
+ Lịch sử.'
403
+ - 'Quận Sông Bé được thành lập theo Nghị định của Toàn quyền Đông Dương ngày 25
404
+ tháng 10 năm 1927 trên cơ sở đổi tên quận Phú Riềng (thuộc tỉnh Biên Hòa) và chuyển
405
+ quận lị về Bu Kroai (nay thuộc xã Đức Hạnh, huyện Bù Gia Mập).
406
+
407
+ Ngày 20 tháng 5 năm 1933, cùng với việc chuyển quận lị Sông Bé về núi Bà Rá, quận
408
+ Sông Bé được đổi tên thành quận Núi Bà Rá.
409
+
410
+ Quận Núi Bà Rá được nâng cấp thành tỉnh Phước Long theo Sắc lệnh số 143-NV ngày
411
+ 22 tháng 10 năm 1956 do Tổng thống Việt Nam Cộng hòa ký, chia Nam phần thành 22
412
+ tỉnh. Tỉnh lỵ tỉnh Phước Long đặt tại Phước Bình, về mặt hành chính thuộc xã Sơn
413
+ Giang, quận Phước Bình (nay là khu vực trung tâm thị xã Phước Long). Địa bàn quận
414
+ Sông Bé nay thuộc tỉnh Bình Phước.'
415
+ ---
416
+
417
+ # SentenceTransformer based on BAAI/bge-m3
418
+
419
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
420
+
421
+ ## Model Details
422
+
423
+ ### Model Description
424
+ - **Model Type:** Sentence Transformer
425
+ - **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision 5617a9f61b028005a4858fdac845db406aefb181 -->
426
+ - **Maximum Sequence Length:** 8192 tokens
427
+ - **Output Dimensionality:** 1024 dimensions
428
+ - **Similarity Function:** Cosine Similarity
429
+ <!-- - **Training Dataset:** Unknown -->
430
+ <!-- - **Language:** Unknown -->
431
+ <!-- - **License:** Unknown -->
432
+
433
+ ### Model Sources
434
+
435
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
436
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
437
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
438
+
439
+ ### Full Model Architecture
440
+
441
+ ```
442
+ SentenceTransformer(
443
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
444
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
445
+ (2): Normalize()
446
+ )
447
+ ```
448
+
449
+ ## Usage
450
+
451
+ ### Direct Usage (Sentence Transformers)
452
+
453
+ First install the Sentence Transformers library:
454
+
455
+ ```bash
456
+ pip install -U sentence-transformers
457
+ ```
458
+
459
+ Then you can load this model and run inference.
460
+ ```python
461
+ from sentence_transformers import SentenceTransformer
462
+
463
+ # Download from the 🤗 Hub
464
+ model = SentenceTransformer("strongpear/M3-retriever-Wiki")
465
+ # Run inference
466
+ sentences = [
467
+ 'Quận Sông Bé được thành lập vào thời điểm nào và dựa trên cơ sở nào?',
468
+ 'Quận Sông Bé được thành lập theo Nghị định của Toàn quyền Đông Dương ngày 25 tháng 10 năm 1927 trên cơ sở đổi tên quận Phú Riềng (thuộc tỉnh Biên Hòa) và chuyển quận lị về Bu Kroai (nay thuộc xã Đức Hạnh, huyện Bù Gia Mập).\nNgày 20 th��ng 5 năm 1933, cùng với việc chuyển quận lị Sông Bé về núi Bà Rá, quận Sông Bé được đổi tên thành quận Núi Bà Rá.\nQuận Núi Bà Rá được nâng cấp thành tỉnh Phước Long theo Sắc lệnh số 143-NV ngày 22 tháng 10 năm 1956 do Tổng thống Việt Nam Cộng hòa ký, chia Nam phần thành 22 tỉnh. Tỉnh lỵ tỉnh Phước Long đặt tại Phước Bình, về mặt hành chính thuộc xã Sơn Giang, quận Phước Bình (nay là khu vực trung tâm thị xã Phước Long). Địa bàn quận Sông Bé nay thuộc tỉnh Bình Phước.',
469
+ 'Mạng lưới sông rạch.\nToàn huyện có 355\xa0km kênh mương thủy lợi chính, gồm 80\xa0km kênh cấp I và 275\xa0km kênh cấp II, bình quân 1 ha đất canh tác có 12,62m kênh mương thủy lợi.\nDo nằm ven sông Cổ Chiên và có cù lao Hoà Minh – Long Hoà chạy dài ra sát cửa Cung Hầu nên huyện Châu Thành chịu ảnh hưởng chế độ bán nhật trìêu của biển Đông, thông qua đoạn sông Cổ Chiên vào các hệ thống sông rạch lớn như: Láng Thé – Ba Si – Ô Chát, sông Trà Vinh – Kinh Thống Nhất hệ Tầm Phương, sông Bãi Vàng – Vinh Kim. Ngoài ra, do yêu cầu tiếp ngọt với hai cống ngăn mặn Đa Lộc, Hiệp Hòa vào mùa khô, nguồn nước từ Cầu Quan (sông Hậu) được đưa sang kinh Thống Nhất và Trà Vinh. Trong ngày nước lên xuống hai lần, mỗi tháng có 2 lần triều cường sau ngày 1 và ngày 15 âl và 2 lần triều kèm sau ngày 7 và 23 âl (từ 2 đến 3 ngày), biên độ triều hàng ngày rất lớn, nhất là các khu vực gần cửa sông.\nBiên độ tắt dần khi vào nội đồng, đặc biệt vào mùa triều cường (tháng 10,12 dương lịch) đối với vùng kinh Thông Nhất qua ngọn Ô Chát chịu ảnh hưởng chung của sông Cổ Chiên và sông Hậu, biên độ triều hàng ngày nhỏ và hầu như không đáng kể vào thời kỳ triều cường nhất trong năm. Một số vùng thấp (Thanh Mỹ – Đa Lộc) có thời gian nước trên đồng không rút được, dù độ ngập không lớn.\nVào mùa khô, triều cường và gió chướng đã đưa nước mặn xâm nhập vào nội đồng, độ mặn trung bình thay đổi từ 2,24‰ -9,96‰ từ cuối tháng 1 đến tháng 6, tuy nhiên tháng tư có độ mặn cao nhất trên 18‰ (Hưng Mỹ). Các cửa sông gần biển thì độ mặn càng cao. Do dự trữ nước nội đồng và nguồn bổ sung từ trên xuống, từ sông Hậu sang nên độ mặn giảm dần khi vào nội đồng.\nHành chính.\nHuyện Châu Thành có 14 đơn vị hành chính cấp xã trực thuộc, bao gồm thị trấn Châu Thành và 13 xã: Đa Lộc, Hòa Lợi, Hòa Minh, Hòa Thuận, Hưng Mỹ, Long Hòa, Lương Hòa, Lương Hòa A, Mỹ Chánh, Nguyệt Hóa, Phước Hảo, Song Lộc, Thanh Mỹ.\nLịch sử.',
470
+ ]
471
+ embeddings = model.encode(sentences)
472
+ print(embeddings.shape)
473
+ # [3, 1024]
474
+
475
+ # Get the similarity scores for the embeddings
476
+ similarities = model.similarity(embeddings, embeddings)
477
+ print(similarities.shape)
478
+ # [3, 3]
479
+ ```
480
+
481
+ <!--
482
+ ### Direct Usage (Transformers)
483
+
484
+ <details><summary>Click to see the direct usage in Transformers</summary>
485
+
486
+ </details>
487
+ -->
488
+
489
+ <!--
490
+ ### Downstream Usage (Sentence Transformers)
491
+
492
+ You can finetune this model on your own dataset.
493
+
494
+ <details><summary>Click to expand</summary>
495
+
496
+ </details>
497
+ -->
498
+
499
+ <!--
500
+ ### Out-of-Scope Use
501
+
502
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
503
+ -->
504
+
505
+ <!--
506
+ ## Bias, Risks and Limitations
507
+
508
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
509
+ -->
510
+
511
+ <!--
512
+ ### Recommendations
513
+
514
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
515
+ -->
516
+
517
+ ## Training Details
518
+
519
+ ### Training Dataset
520
+
521
+ #### Unnamed Dataset
522
+
523
+
524
+ * Size: 148,500 training samples
525
+ * Columns: <code>anchor</code> and <code>positive</code>
526
+ * Approximate statistics based on the first 1000 samples:
527
+ | | anchor | positive |
528
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
529
+ | type | string | string |
530
+ | details | <ul><li>min: 7 tokens</li><li>mean: 19.77 tokens</li><li>max: 40 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 408.51 tokens</li><li>max: 699 tokens</li></ul> |
531
+ * Samples:
532
+ | anchor | positive |
533
+ |:--------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
534
+ | <code>Adidas đã thực hiện những bước tiến nào trong lĩnh vực giày thể thao từ năm 2005 đến 2006?</code> | <code>Vào ngày 25 tháng 11 năm 2005, Adidas đã phát hành phiên bản mới của Adidas 1 với phạm vi đệm tăng lên, cho phép giày trở nên mềm hơn hoặc cứng hơn và một động cơ mới có mô-men xoắn lớn hơn 153%.<br>Vào ngày 11 tháng 4 năm 2006, Adidas công bố hợp đồng 11 năm để trở thành nhà cung cấp quần áo chính thức của NBA. Công ty đã và đang sản xuất áo thi đấu và các sản phẩm của NBA, NBDL và WNBA cũng như các phiên bản màu đội của giày bóng rổ "Superstar". Thỏa thuận này (trị giá hơn 400 triệu đô la) đã tiếp quản thỏa thuận Reebok trước đó đã được thực hiện vào năm 2001 trong 10 năm.<br>Vào tháng 11 năm 2011, Adidas thông báo rằng họ sẽ mua lại thương hiệu biểu diễn thể thao hành động ngoài trời Five Ten thông qua một thỏa thuận mua cổ phần. Tổng giá mua là 25 triệu đô la Mỹ bằng tiền mặt khi đóng cửa.<br>Những năm gần đây.<br>Vào cuối năm 2012, Adidas đã báo cáo doanh thu cao nhất từ ​​trước đến nay và Giám đốc điều hành Herbert Hainer bày tỏ sự lạc quan cho năm tới. Adidas hiện có trụ sở công ty toàn cầu...</code> |
535
+ | <code>Tại sao Hồ Nhất Đao chết và điều gì xảy ra với vợ của ông?</code> | <code>Không may Miêu Nhân Phụng (cầm đao của Hồ Nhất Đao) làm bị thương Hồ Nhất Đao, thế là Hồ Nhất Đao chết vì bị độc, vợ của Hồ Nhất Đao mới sinh được một đứa con trai - là nhân vật chính Hồ Phỉ - cũng tự sát theo chồng. Bi kịch thù hận bốn họ tạm thời ngưng lại trong sự hối hận của Miêu Nhân Phụng, ông chôn cất vợ chồng Hồ Nhất Đao và hàng năm tế bái, coi họ là anh em, suốt đời ân hận vì đã nỡ tay hại chết tri kỷ.<br>Hồ Phỉ hóa giải ân oán.<br>Đoạn này lẫn lộn nội dung Tuyết Sơn Phi Hồ và Phi Hồ Ngoại Truyện<br>Khi Hồ Nhất Đao chết, bọn Điền Quy Nông muốn trừ hậu họa nên lục tìm giết đứa bé, nhưng Bình A Tứ (một người hầu nghèo khổ trong quán trước đó được Hồ Nhất Đao cứu giúp, chịu ơn lớn của Hồ Nhất Đao) đã nhanh tay cứu mang đứa bé đi. Thầy lang Diêm Cơ định cướp đao phổ nhưng không thành, chỉ giật được vài trang đầu sau đó đi tu luyện thành võ công cao cường lấy hiệu là Bảo Thụ.<br>Bình A Tứ nuôi lớn Hồ Phỉ, Hồ Phỉ luyện thành võ công cao cường, quay lại tìm hiểu bí mật cái chết của cha mẹ (chi t...</code> |
536
+ | <code>Thế hệ thứ nhất của RAF đã thực hiện những hoạt động gì trong giai đoạn 1970-1972?</code> | <code>Thế hệ thứ nhất.<br>Thế hệ thứ nhất của RAF (Andreas Baader, Gudrun Ensslin, Holger Meins, Ulrike Meinhof, Jan-Carl Raspe và nhiều người khác) trong thời gian từ 1970 đến 1972 đã thực hiện nhiều vụ đánh cướp ngân hàng, đánh bom các cơ sở quân sự Mỹ, trong đó có sở tổng chỉ huy quân đội Mỹ tại Frankfurt am Main, và cơ quan nhà nước, qua đó đã có bốn người chết và trên 30 người bị thương. Trong tháng 6 năm 1972 những người nắm vai trò chủ chốt bị bắt giam: Andreas Baader, Holger Meins và Jan-Carl Raspe tại Frankfurt, Gudrun Ensslin tại Hamburg, Brigitte Mohnhaupt tại Tây Berlin và Ulrike Meinhof tại Hannover. Tháng 5 năm 1975 họ bị khởi tố và trong tháng 4 năm 1977 sau 192 ngày xử án bị tuyên án tù chung thân vì tội giết người ngoài những tội khác.<br>Trong nhà giam, nhóm người này khiếu nại về điều kiện giam giữ được thắt chặt như là tra tấn bằng cách cô lập và yêu cầu hủy bỏ điều này cũng như là công nhận quy chế tù nhân chiến tranh và những điều khác. Để tăng sức ép cho yêu cầu, họ đã nhiều...</code> |
537
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
538
+ ```json
539
+ {
540
+ "scale": 20.0,
541
+ "similarity_fct": "cos_sim"
542
+ }
543
+ ```
544
+
545
+ ### Evaluation Dataset
546
+
547
+ #### Unnamed Dataset
548
+
549
+
550
+ * Size: 1,500 evaluation samples
551
+ * Columns: <code>anchor</code> and <code>positive</code>
552
+ * Approximate statistics based on the first 1000 samples:
553
+ | | anchor | positive |
554
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
555
+ | type | string | string |
556
+ | details | <ul><li>min: 7 tokens</li><li>mean: 19.84 tokens</li><li>max: 48 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 410.74 tokens</li><li>max: 657 tokens</li></ul> |
557
+ * Samples:
558
+ | anchor | positive |
559
+ |:--------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
560
+ | <code>Pennsylvania được gọi là gì và có những đặc điểm gì liên quan đến chính quyền?</code> | <code>Ngày nay, hai thành phố lớn của tiểu bang là —Philadelphia, quê hương của chuông Liberty, sảnh Independence, là một khu đô thị sầm uất, và Pittsburgh, một cảng sông bận rộn bên trong lục địa và là một trung tâm lớn cho giáo dục và các tiến bộ kỹ thuật. Dãy núi Pocono và Delaware Water Gap cung cấp các hoạt động giải trí phổ thông.<br>Pennsylvania là một "Commonwealth", mặc cho nó có State Treasury và State Police. Massachusetts, Virginia và Kentucky cũng được biết như là "Commonwealth".<br>Chiến hạm USS "Pennsylvania", bị hư hỏng tại Trân Châu Cảng "(Pearl Harbor)", được đặt tên để vinh danh tiểu bang này, cũng như là một vài chiến hạm hải quân khác. Nó được sửa chữa lại Sun Ship Yard &amp; Dry Dock trước đây ở Chester, Pennsylvania.</code> |
561
+ | <code>Romaja là gì và nó có liên quan như thế nào đến việc ghi tiếng Hàn Quốc?</code> | <code>Romaja hay cách ghi tiếng Hàn Quốc (Triều Tiên) bằng chữ latinh là các phương pháp ghi tiếng Triều Tiên bằng chữ cái Latinh. Romaja có nghĩa là "La Mã tự" hay "chữ La Mã". Romaja quốc ngữ là phương pháp nhiều người thường dùng nhất.<br>"Romaja" không được nhầm lẫn với "romanization (La-tinh hóa)". Cách viết thứ nhất có thể được áp dụng cho bất kỳ cách sử dụng chữ cái Latinh nào trong văn bản tiếng Hàn - cho dù đối với các từ hoặc tên tiếng Hàn hoặc không phải tiếng Hàn Quốc - trong khi cách viết thứ hai đề cập đến việc viết các từ tiếng Hàn bằng hệ thống chữ Latinh: hoặc là chữ La tinh hóa các từ riêng lẻ trong văn bản tiếng Hàn, hoặc viết toàn bộ văn bản tiếng Hàn bằng hệ thống chữ Latinh.<br>Hệ thống.<br>Nhiều lược đồ La tinh hóa đang được sử dụng phổ biến:</code> |
562
+ | <code>Tây Sơn có vai trò gì trong địa lý của Bắc Kinh?</code> | <code>Địa lý.<br>Địa hình.<br>Thành phố Bắc Kinh nằm trên vùng đất thấp và bằng phẳng, với độ cao thường nằm trong khoảng 40-60m trên mực nước biển. Điểm cao nhất trong khu thành cổ là đỉnh của Cảnh Sơn với độ cao là 88,35 m, từ đây có thể nhìn toàn cảnh Tử Cấm thành. Đỉnh của Vạn Thọ Sơn (万寿山) thuộc Di Hòa Viên có độ cao . Vùng đồng bằng từ Bắc Kinh kéo dài xa về phía đông đến Sơn Hải quan bên bờ Bột Hải và xa về phía nam đến Nam Kinh.<br>Ở phía tây Bắc Kinh có Tây Sơn, có thể nhìn thấy núi này từ nội thị vào những ngày quang đãng. Tây Sơn tạo thành sườn núi phía đông của Thái Hành Sơn- dãy núi chạy theo chiều bắc-nam và tạo thành xương sống phía tây của Hà Bắc. Tây Sơn bao trùm gần như toàn bộ các quận Phòng Sơn và Môn Đầu Câu ở phía tây thành phố. Đông Linh Sơn (东灵山, cao ), một đỉnh núi của Tây Sơn nằm trên ranh giới với Hà Bắc, là đỉnh cao nhất tại Bắc Kinh. Đỉnh này nằm cách trung tâm thành phố . Tây Sơn cũng được biết đến với các đồng cỏ núi cao và các hẻm núi sông, bao gồm Thập Độ (十渡). Vùng c...</code> |
563
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
564
+ ```json
565
+ {
566
+ "scale": 20.0,
567
+ "similarity_fct": "cos_sim"
568
+ }
569
+ ```
570
+
571
+ ### Training Hyperparameters
572
+ #### Non-Default Hyperparameters
573
+
574
+ - `eval_strategy`: steps
575
+ - `per_device_train_batch_size`: 32
576
+ - `per_device_eval_batch_size`: 32
577
+ - `num_train_epochs`: 1
578
+ - `warmup_ratio`: 0.1
579
+ - `bf16`: True
580
+ - `batch_sampler`: no_duplicates
581
+
582
+ #### All Hyperparameters
583
+ <details><summary>Click to expand</summary>
584
+
585
+ - `overwrite_output_dir`: False
586
+ - `do_predict`: False
587
+ - `eval_strategy`: steps
588
+ - `prediction_loss_only`: True
589
+ - `per_device_train_batch_size`: 32
590
+ - `per_device_eval_batch_size`: 32
591
+ - `per_gpu_train_batch_size`: None
592
+ - `per_gpu_eval_batch_size`: None
593
+ - `gradient_accumulation_steps`: 1
594
+ - `eval_accumulation_steps`: None
595
+ - `torch_empty_cache_steps`: None
596
+ - `learning_rate`: 5e-05
597
+ - `weight_decay`: 0.0
598
+ - `adam_beta1`: 0.9
599
+ - `adam_beta2`: 0.999
600
+ - `adam_epsilon`: 1e-08
601
+ - `max_grad_norm`: 1.0
602
+ - `num_train_epochs`: 1
603
+ - `max_steps`: -1
604
+ - `lr_scheduler_type`: linear
605
+ - `lr_scheduler_kwargs`: {}
606
+ - `warmup_ratio`: 0.1
607
+ - `warmup_steps`: 0
608
+ - `log_level`: passive
609
+ - `log_level_replica`: warning
610
+ - `log_on_each_node`: True
611
+ - `logging_nan_inf_filter`: True
612
+ - `save_safetensors`: True
613
+ - `save_on_each_node`: False
614
+ - `save_only_model`: False
615
+ - `restore_callback_states_from_checkpoint`: False
616
+ - `no_cuda`: False
617
+ - `use_cpu`: False
618
+ - `use_mps_device`: False
619
+ - `seed`: 42
620
+ - `data_seed`: None
621
+ - `jit_mode_eval`: False
622
+ - `use_ipex`: False
623
+ - `bf16`: True
624
+ - `fp16`: False
625
+ - `fp16_opt_level`: O1
626
+ - `half_precision_backend`: auto
627
+ - `bf16_full_eval`: False
628
+ - `fp16_full_eval`: False
629
+ - `tf32`: None
630
+ - `local_rank`: 0
631
+ - `ddp_backend`: None
632
+ - `tpu_num_cores`: None
633
+ - `tpu_metrics_debug`: False
634
+ - `debug`: []
635
+ - `dataloader_drop_last`: False
636
+ - `dataloader_num_workers`: 0
637
+ - `dataloader_prefetch_factor`: None
638
+ - `past_index`: -1
639
+ - `disable_tqdm`: False
640
+ - `remove_unused_columns`: True
641
+ - `label_names`: None
642
+ - `load_best_model_at_end`: False
643
+ - `ignore_data_skip`: False
644
+ - `fsdp`: []
645
+ - `fsdp_min_num_params`: 0
646
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
647
+ - `fsdp_transformer_layer_cls_to_wrap`: None
648
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
649
+ - `deepspeed`: None
650
+ - `label_smoothing_factor`: 0.0
651
+ - `optim`: adamw_torch
652
+ - `optim_args`: None
653
+ - `adafactor`: False
654
+ - `group_by_length`: False
655
+ - `length_column_name`: length
656
+ - `ddp_find_unused_parameters`: None
657
+ - `ddp_bucket_cap_mb`: None
658
+ - `ddp_broadcast_buffers`: False
659
+ - `dataloader_pin_memory`: True
660
+ - `dataloader_persistent_workers`: False
661
+ - `skip_memory_metrics`: True
662
+ - `use_legacy_prediction_loop`: False
663
+ - `push_to_hub`: False
664
+ - `resume_from_checkpoint`: None
665
+ - `hub_model_id`: None
666
+ - `hub_strategy`: every_save
667
+ - `hub_private_repo`: False
668
+ - `hub_always_push`: False
669
+ - `gradient_checkpointing`: False
670
+ - `gradient_checkpointing_kwargs`: None
671
+ - `include_inputs_for_metrics`: False
672
+ - `eval_do_concat_batches`: True
673
+ - `fp16_backend`: auto
674
+ - `push_to_hub_model_id`: None
675
+ - `push_to_hub_organization`: None
676
+ - `mp_parameters`:
677
+ - `auto_find_batch_size`: False
678
+ - `full_determinism`: False
679
+ - `torchdynamo`: None
680
+ - `ray_scope`: last
681
+ - `ddp_timeout`: 1800
682
+ - `torch_compile`: False
683
+ - `torch_compile_backend`: None
684
+ - `torch_compile_mode`: None
685
+ - `dispatch_batches`: None
686
+ - `split_batches`: None
687
+ - `include_tokens_per_second`: False
688
+ - `include_num_input_tokens_seen`: False
689
+ - `neftune_noise_alpha`: None
690
+ - `optim_target_modules`: None
691
+ - `batch_eval_metrics`: False
692
+ - `eval_on_start`: False
693
+ - `use_liger_kernel`: False
694
+ - `eval_use_gather_object`: False
695
+ - `prompts`: None
696
+ - `batch_sampler`: no_duplicates
697
+ - `multi_dataset_batch_sampler`: proportional
698
+
699
+ </details>
700
+
701
+ ### Training Logs
702
+ | Epoch | Step | Training Loss | Validation Loss |
703
+ |:------:|:----:|:-------------:|:---------------:|
704
+ | 0.0431 | 200 | 0.0372 | 0.0122 |
705
+ | 0.0862 | 400 | 0.0226 | 0.0162 |
706
+ | 0.1293 | 600 | 0.0305 | 0.0181 |
707
+ | 0.1724 | 800 | 0.0351 | 0.0205 |
708
+ | 0.2155 | 1000 | 0.0326 | 0.0171 |
709
+ | 0.2586 | 1200 | 0.0289 | 0.0156 |
710
+ | 0.3017 | 1400 | 0.028 | 0.0169 |
711
+ | 0.3448 | 1600 | 0.0273 | 0.0199 |
712
+ | 0.3878 | 1800 | 0.0216 | 0.0180 |
713
+ | 0.4309 | 2000 | 0.0252 | 0.0122 |
714
+ | 0.4740 | 2200 | 0.0213 | 0.0138 |
715
+ | 0.5171 | 2400 | 0.0254 | 0.0142 |
716
+ | 0.5602 | 2600 | 0.0202 | 0.0155 |
717
+ | 0.6033 | 2800 | 0.0168 | 0.0145 |
718
+ | 0.6464 | 3000 | 0.0176 | 0.0123 |
719
+ | 0.6895 | 3200 | 0.0212 | 0.0123 |
720
+ | 0.7326 | 3400 | 0.0166 | 0.0102 |
721
+ | 0.7757 | 3600 | 0.0181 | 0.0102 |
722
+ | 0.8188 | 3800 | 0.0158 | 0.0086 |
723
+ | 0.8619 | 4000 | 0.0151 | 0.0090 |
724
+ | 0.9050 | 4200 | 0.0134 | 0.0095 |
725
+ | 0.9481 | 4400 | 0.012 | 0.0093 |
726
+ | 0.9912 | 4600 | 0.0134 | 0.0090 |
727
+
728
+
729
+ ### Framework Versions
730
+ - Python: 3.9.20
731
+ - Sentence Transformers: 3.3.1
732
+ - Transformers: 4.45.2
733
+ - PyTorch: 2.4.0+cu121
734
+ - Accelerate: 1.0.1
735
+ - Datasets: 3.0.0
736
+ - Tokenizers: 0.20.1
737
+
738
+ ## Citation
739
+
740
+ ### BibTeX
741
+
742
+ #### Sentence Transformers
743
+ ```bibtex
744
+ @inproceedings{reimers-2019-sentence-bert,
745
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
746
+ author = "Reimers, Nils and Gurevych, Iryna",
747
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
748
+ month = "11",
749
+ year = "2019",
750
+ publisher = "Association for Computational Linguistics",
751
+ url = "https://arxiv.org/abs/1908.10084",
752
+ }
753
+ ```
754
+
755
+ #### MultipleNegativesRankingLoss
756
+ ```bibtex
757
+ @misc{henderson2017efficient,
758
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
759
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
760
+ year={2017},
761
+ eprint={1705.00652},
762
+ archivePrefix={arXiv},
763
+ primaryClass={cs.CL}
764
+ }
765
+ ```
766
+
767
+ <!--
768
+ ## Glossary
769
+
770
+ *Clearly define terms in order to be accessible across audiences.*
771
+ -->
772
+
773
+ <!--
774
+ ## Model Card Authors
775
+
776
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
777
+ -->
778
+
779
+ <!--
780
+ ## Model Card Contact
781
+
782
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
783
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "BAAI/bge-m3",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.45.2",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.45.2",
5
+ "pytorch": "2.4.0+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:91c4057ada0c4a11f76602ddccdb1ffbdea49dfb635dbf9cd88e46fd4ad6aa26
3
+ size 2271064456
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 8192,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e4f7e21bec3fb0044ca0bb2d50eb5d4d8c596273c422baef84466d2c73748b9c
3
+ size 17083053
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 8192,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "sp_model_kwargs": {},
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }