strongpear
commited on
Add new SentenceTransformer model
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +783 -0
- config.json +28 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +55 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 1024,
|
3 |
+
"pooling_mode_cls_token": true,
|
4 |
+
"pooling_mode_mean_tokens": false,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,783 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: BAAI/bge-m3
|
3 |
+
library_name: sentence-transformers
|
4 |
+
pipeline_tag: sentence-similarity
|
5 |
+
tags:
|
6 |
+
- sentence-transformers
|
7 |
+
- sentence-similarity
|
8 |
+
- feature-extraction
|
9 |
+
- generated_from_trainer
|
10 |
+
- dataset_size:148500
|
11 |
+
- loss:MultipleNegativesRankingLoss
|
12 |
+
widget:
|
13 |
+
- source_sentence: Thành phố San Fernando là một phần của nước nào và có bao nhiêu
|
14 |
+
dân số?
|
15 |
+
sentences:
|
16 |
+
- Boule-d'Amont là một xã trong vùng Occitanie, thuộc tỉnh Pyrénées-Orientales,
|
17 |
+
quận Prades, tổng Vinça. Tọa độ địa lý của xã là 42° 34' vĩ độ bắc, 02° 36' kinh
|
18 |
+
độ đông. Boule-d'Amont nằm trên độ cao trung bình là 483 mét trên mực nước biển,
|
19 |
+
có điểm thấp nhất là 234 mét và điểm cao nhất là 1.348 mét. Xã có diện tích 23,22 km²,
|
20 |
+
dân số vào thời điểm 1999 là 73 người; mật độ dân số là 3 người/km².
|
21 |
+
- 'Thành phố San Fernando là một trong ba thành phố lớn của Trinidad và Tobago,
|
22 |
+
là đô thị lớn thứ hai. Thành phố có diện tịch 18 km² và nằm ở phía tây nam của
|
23 |
+
đảo Trinidad. Nó giáp sông Guaracara về phía bắc, giáp sông Oropouche về phía
|
24 |
+
nam, giáp quốc lộ Sir Solomon Hochoy về phía đông, và vịnh Paria về phía tây.
|
25 |
+
Dân số ước tính năm 2000 là 62.000 người. Đô thị San Fernando được nâng cấp thành
|
26 |
+
thành phố ngày 18 tháng 11 năm 1988. Khẩu hiệu của San Fernando là: "Sanitas Fortis"
|
27 |
+
- "Trong một môi trường lành mạnh chúng ta sẽ tìm thấy sức mạnh".'
|
28 |
+
- 'Các dự án quân sự bản địa khác liên quan đến việc thiết kế và bổ sung hàng không
|
29 |
+
mẫu hạm lớp "Vikrant" và tàu ngầm hạt nhân lớp "Arihant".
|
30 |
+
|
31 |
+
Sau khi kết thúc Chiến tranh Lạnh,Ấn Độ tăng cường hợp tác về kinh tế,chiến lược
|
32 |
+
và quân sự với Hoa Kỳ và Liên minh châu Âu. Năm 2008, Hoa Kỳ và Ấn Độ ký kết một
|
33 |
+
thỏa thuận hạt nhân dân sự.Mặc dù đương thời Ấn Độ là quốc gia sở hữu vũ khí hạt
|
34 |
+
nhân và không phải là một bên tham gia của Hiệp ước không phổ biến vũ khí hạt
|
35 |
+
nhân,song quốc gia này vẫn nhận được sự miễn trừ từ Cơ quan Năng lượng Nguyên
|
36 |
+
tử Quốc tế và Nhóm các nhà cung cấp hạt nhân,do vậy thoát khỏi các hạn chế,rào
|
37 |
+
cản trước đây đối với công nghệ và thương mại hạt nhân. Như một hệ quả, Ấn Độ
|
38 |
+
trở thành quốc gia thứ sáu sở hữu vũ khí hạt nhân "trên thực tế". Ấn Độ sau đó
|
39 |
+
ký kết các thỏa thuận hợp tác liên quan đến năng lượng hạt nhân dân sự với Nga,
|
40 |
+
Pháp, Anh Quốc, và Canada.
|
41 |
+
|
42 |
+
Tổng thống Ấn Độ là thống soái tối cao của lực lượng vũ trang quốc gia với 1,6
|
43 |
+
triệu quân tại ngũ và xếp thứ ba thế giới trên tiêu chí này. Quân đội Ấn Độ gồm
|
44 |
+
có lục quân, hải quân, và không quân; các tổ chức phụ trợ gồm có Bộ tư lệnh chiến
|
45 |
+
lược (Strategic Forces Command) và ba nhóm bán quân sự: Đội quân súng trường Assam,
|
46 |
+
Lực lượng biên cảnh đặc chủng, và Lực lượng bảo vệ bờ biển Ấn Độ. Ngân sách quốc
|
47 |
+
phòng chính thức của Ấn Độ giai đoạn 2012-17 chiếm khoảng 2,5% GDP. Năm 2012,
|
48 |
+
Ấn Độ là nước nhập khẩu vũ khí lớn nhất thế giới;từ năm 2007 đến năm 2011, tiền
|
49 |
+
mua vũ khí của Ấn Độ chiếm 10% tổng phí tổn dành cho mua sắm vũ khí. Phần lớn
|
50 |
+
chi tiêu quân sự tập trung vào phòng thủ đối với riêng Pakistan và chống lại ảnh
|
51 |
+
hưởng ngày càng gia tăng của Trung Quốc tại Ấn Độ Dương.
|
52 |
+
|
53 |
+
Một trận ẩu đả dữ dội giữa quân đội Trung Quốc và Ấn Độ tại khu vực lãnh thổ tranh
|
54 |
+
chấp đã làm 20 binh sĩ Ấn Độ và ít nhất 4 binh sĩ Trung Quốc thiệt mạng.'
|
55 |
+
- source_sentence: Sự khác biệt giữa các loại sao về nhiệt độ bề mặt là gì?
|
56 |
+
sentences:
|
57 |
+
- 'Một khi việc cấp phát vùng nhớ động không còn cần thiết nữa thì phần bộ nhớ đó
|
58 |
+
nên được trả về cho hệ điều hành. Thao tác này có thể tiến hành bằng hàm codice_134.
|
59 |
+
Nó cần một tham số: tên của con trỏ mà trước đây đã xin cấp phát vùng nhớ. Một
|
60 |
+
cách an toàn hơn là sau khi đã trả vùng nhớ về cho hệ điều hành, người lập trình
|
61 |
+
cũng nên cài (hay gán) cho con trỏ liên đới giá trị codice_135 để hủy bỏ địa chỉ
|
62 |
+
mà nó đang chỉ tới (nhằm tránh gây ra các hiệu ứng phụ do việc tham chiếu của
|
63 |
+
con trỏ này có thể gây ra).
|
64 |
+
|
65 |
+
Các mảng đa chiều.
|
66 |
+
|
67 |
+
C có hỗ trợ việc dùng mảng đa chiều. Việc định nghĩa chúng giống như là tạo ra
|
68 |
+
"mảng của các mảng ", mặc dù vậy trong thực tế nó không hoàn toàn đúng. Cú pháp
|
69 |
+
sau:
|
70 |
+
|
71 |
+
sẽ định nghĩa một mảng hai chiều; chiều thứ nhất có codice_136 phần tử. Chiều
|
72 |
+
thứ hai sẽ có codice_137 các phần tử—một tập hợp của codice_138 các phần tử mà
|
73 |
+
mỗi phần tử là một chiều thứ nhất.
|
74 |
+
|
75 |
+
Các mảng đa chiều hoàn toàn có thể được xem như là dãy của các con trỏ. Trong
|
76 |
+
thí dụ trên, codice_139 (nếu codice_136 là 1) sẽ là một tham chiếu giá trị nguyên
|
77 |
+
mà nó chỉ tới một mảng của codice_138 các phần tử.
|
78 |
+
|
79 |
+
Dãy ký tự.
|
80 |
+
|
81 |
+
Dãy ký tự có thể được thay đổi nội dung của nó mà không cần đến thư viện chuẩn.
|
82 |
+
Tuy nhiên, thư viện này có nhiều hàm có thể dùng cho cả dãy ký tự có kết thúc
|
83 |
+
0 và mảng không có ký tự kết thúc kiểu codice_84. Trong phần này từ "dãy" được
|
84 |
+
để chỉ dãy ký tự.
|
85 |
+
|
86 |
+
Các hàm thường dùng là:
|
87 |
+
|
88 |
+
Các hàm ít dùng tới hơn là:
|
89 |
+
|
90 |
+
Tập tin I/O.
|
91 |
+
|
92 |
+
Trong C, I/O được tiến hành qua một nhóm các hàm trong thư viện chuẩn. Trong ANSI/ISO
|
93 |
+
C, những hàm đó được định nghĩa trong codice_202.
|
94 |
+
|
95 |
+
Tiêu chuẩn I/O.
|
96 |
+
|
97 |
+
Ba tiêu chuẩn dòng I/O được định nghĩa sẵn là:
|
98 |
+
|
99 |
+
Các dòng này được tự động mở và đóng lại bởi môi trường của thời gian thi hành,
|
100 |
+
chúng không cần và không nên được mở một cách rõ ràng.
|
101 |
+
|
102 |
+
Thí dụ sau minh họa làm thế nào một chương trình bộ lọc được cấu trúc một cách
|
103 |
+
điển hình:
|
104 |
+
|
105 |
+
Việc chuyển các đối số qua dòng lệnh.'
|
106 |
+
- "Số lượng nguyên tử chì cao cũng làm tăng mật độ của vật liệu, vì chì có trọng\
|
107 |
+
\ lượng nguyên tử rất cao là 207,2, so với 40,08 đối với calci. Mật độ của ly\
|
108 |
+
\ soda là 2,4g/cm³ hoặc thấp hơn, trong khi tinh thể chì điển hình có mật độ khoảng\
|
109 |
+
\ 3,1g/cm³ và kính chì cao có thể trên 4,0g/cm³ hoặc thậm chí lên tới 5,9g/cm³\
|
110 |
+
\ \nSự sáng chói của tinh thể chì phụ thuộc vào chỉ số khúc xạ cao gây ra bởi\
|
111 |
+
\ hàm lượng chì. Thủy tinh thông thường có chiết suất \"n\" = 1,5, trong khi việc\
|
112 |
+
\ bổ sung chì tạo ra phạm vi lên tới 1,7 hoặc 1,8. Chỉ số khúc xạ tăng cao này\
|
113 |
+
\ cũng tương quan với độ tán sắc tăng, đo mức độ mà môi trường phân tách ánh sáng\
|
114 |
+
\ thành quang phổ thành phần của nó, như trong lăng kính. Kỹ thuật cắt pha lê\
|
115 |
+
\ khai thác các tính chất này để tạo ra hiệu ứng lấp lánh rực rỡ khi mỗi khía\
|
116 |
+
\ cạnh cắt phản xạ và truyền ánh sáng qua vật thể. Chỉ số khúc xạ cao rất hữu\
|
117 |
+
\ ích cho việc chế tạo ống kính, vì có thể đạt được độ dài tiêu cự nhất định với\
|
118 |
+
\ ống kính mỏng hơn. Tuy nhiên, độ phân tán phải được hiệu chỉnh bởi các thành\
|
119 |
+
\ phần khác của hệ thống thấu kính nếu nó bị mờ.\nViệc bổ sung oxide chì vào thủy\
|
120 |
+
\ tinh kali cũng làm giảm độ nhớt của nó, khiến nó lỏng hơn thủy tinh soda thông\
|
121 |
+
\ thường trên nhiệt độ làm mềm (khoảng ), với điểm làm việc là . Độ nhớt của thủy\
|
122 |
+
\ tinh thay đổi hoàn toàn theo nhiệt độ, nhưng thủy tinh chì nhỏ hơn khoảng 100\
|
123 |
+
\ lần so với kính soda thông thường trong phạm vi nhiệt độ làm việc (lên tới ).\
|
124 |
+
\ Từ quan điểm của thợ làm kính, điều này dẫn đến hai sự phát triển thực tế. Đầu\
|
125 |
+
\ tiên, thủy tinh chì có thể được chế tạo ở nhiệt độ thấp hơn, dẫn đến việc sử\
|
126 |
+
\ dụng nó trong việc tráng men, và thứ hai, các mạch rõ ràng có thể được làm sạch\
|
127 |
+
\ khỏi bọt khí bị kẹt với độ khó thấp hơn đáng kể so với kính thông thường, cho\
|
128 |
+
\ phép chế tạo các vật thể hoàn hảo, rõ ràng.\nKhi gõ, pha lê chì tạo ra âm thanh\
|
129 |
+
\ vang lên, không giống như kính thông thường. Người tiêu dùng vẫn dựa vào đặc\
|
130 |
+
\ tính này để phân biệt với kính rẻ hơn."
|
131 |
+
- 'Nhiệt độ bề mặt của sao, cùng với độ sáng biểu kiến tuyệt đối và các đặc trưng
|
132 |
+
của vạch hấp thụ trong quang phổ, thường được sử dụng để phân loại sao (xem phân
|
133 |
+
loại bên dưới).
|
134 |
+
|
135 |
+
Các sao khối lượng lớn ở dải chính có nhiệt độ bề mặt lên tới 50.000 K. Các sao
|
136 |
+
nhỏ hơn như Mặt Trời có nhiệt độ 6000 K. Những sao khổng lồ đỏ có nhiệt độ bề
|
137 |
+
mặt tương đối thấp vào khoảng 3.600 K, nhưng chúng cũng có độ trưng tương đối
|
138 |
+
lớn do diện tích mặt ngoài lớn.
|
139 |
+
|
140 |
+
Bức xạ.
|
141 |
+
|
142 |
+
Năng lượng được sản xuất ra bởi sao, là sản phẩm của phản ứng tổng hợp hạt nhân,
|
143 |
+
bức xạ vào trong không gian bằng cả bức xạ điện từ và bức xạ hạt. Ngôi sao phát
|
144 |
+
ra bức xạ hạt cũng chính là gió Sao Thổi vào không gian (tồn tại như là một dòng
|
145 |
+
các hạt tích điện ổn định, như proton, hạt anpha, và hạt beta, thoát ra từ các
|
146 |
+
lớp ngoài cùng của sao) và dòng ổn định các hạt neutrino thoát ra từ lõi sao.
|
147 |
+
|
148 |
+
Sản phẩm năng lượng tại lõi cũng là nguyên nhân tại sao ngôi sao chiếu sáng: mỗi
|
149 |
+
lần hai hoặc nhiều hơn hạt nhân nguyên tử của một nguyên tố tổng hợp với nhau
|
150 |
+
để tạo thành một hạt nhân của nguyên tố mới nặng hơn, các photon tia gamma được
|
151 |
+
giải phóng từ phản ứng tổng hợp hạt nhân. Năng lượng này được biến đổi thành các
|
152 |
+
dạng năng lượng điện từ khác, bao gồm ánh sáng khả kiến, theo thời gian chúng
|
153 |
+
truyền đến các lớp bên ngoài của sao.
|
154 |
+
|
155 |
+
Màu sắc của một sao, được xác định bởi đỉnh tần số của ánh sáng khả kiến, phụ
|
156 |
+
thuộc vào nhiệt độ các lớp ngoài cùng của ngôi sao, bao gồm quang quyển của nó.
|
157 |
+
Bên cạnh ánh sáng khả kiến, ngôi sao cũng phát ra các dạng bức xạ điện từ không
|
158 |
+
nhìn thấy được bằng mắt thường. Thực tế bức xạ điện từ phát ra từ ngôi sao trải
|
159 |
+
rộng trên toàn phổ điện từ, từ bước sóng dài nhất là sóng radio, hồng ngoại cho
|
160 |
+
đến bước sóng ngắn nhất như tia tử ngoại, tia X, và tia gamma. Mọi bước sóng bức
|
161 |
+
xạ điện từ của ngôi sao, cả nhìn thấy và không nhìn thấy, đều có ý nghĩa quan
|
162 |
+
trọng.
|
163 |
+
|
164 |
+
Sử dụng phổ của ngôi sao, các nhà thiên văn cũng xác định được nhiệt độ bề mặt,
|
165 |
+
hấp dẫn tại bề mặt, tính kim loại (metallicity) và vận tốc tự quay của sao.'
|
166 |
+
- source_sentence: Tại sao vấn đề Đài Loan độc lập lại phức tạp?
|
167 |
+
sentences:
|
168 |
+
- 'Marie-Ségolène Royal (sinh ngày 22 tháng 9 năm 1953 tại Dakar, Senegal, Tây Phi
|
169 |
+
thuộc Pháp), được gọi là Ségolène Royal (), là một chính trị gia Pháp. Bà là chủ
|
170 |
+
tịch Hội đồng Vùng Nouvelle-Aquitaine, một cựu thành viên của Quốc hội, cựu bộ
|
171 |
+
trưởng trong chính phủ, và là một thành viên có ảnh hưởng của Đảng Xã hội Pháp.
|
172 |
+
Người phụ nữ đầu tiên tại Pháp được chỉ định bởi một đảng lớn làm ứng cử viên
|
173 |
+
trong cuộc bầu cử tổng thống Pháp năm 2007 nhưng đã thua cuộc trước Nicolas Sarkozy
|
174 |
+
ngày 6 tháng 5 năm 2007.
|
175 |
+
|
176 |
+
Ngày 28 tháng 11 năm 2008, Royal tuyên bố tư cách ứng cử viên cho cuộc bầu cử
|
177 |
+
Tổng thống Pháp trong cuộc bầu cử tổng thống năm 2012.
|
178 |
+
|
179 |
+
Tuổi trẻ.
|
180 |
+
|
181 |
+
Ségolène Royal ra đời tại một căn cứ quân sự ở Ouakam, Dakar, Senegal ngày 22
|
182 |
+
tháng 9 năm 1953, là con gái của Hélène Dehaye và Jacques Royal, một cựu sĩ quan
|
183 |
+
pháp binh và trợ lý cho thị trưởng Chamagne (Vosges).
|
184 |
+
|
185 |
+
Cha mẹ bà đã sinh tám người con trong chín năm: Marie-Odette, Marie-Nicole, Gérard,
|
186 |
+
Marie-Ségolène, Antoine, Paul, Henri và Sigisbert.
|
187 |
+
|
188 |
+
Sau khi học xong trung học, Marie-Ségolène vào trường đại học địa phương nơi bà
|
189 |
+
tốt nghiệp ở vị trí thứ hai trong lớp ngành Kinh tế. Chị cả của bà sau đó hướng
|
190 |
+
bà chuẩn bị cho kỳ thi đầu vào Sciences Po và bà được học bổng tại đây. Trong
|
191 |
+
trường bà nghiên cứu chính trị của lớp và sự bình đẳng nam nữ. ("Sciences Po"
|
192 |
+
khi ấy có tới 85% sinh viên thuộc tầng lớp trên người Paris và chủ yếu là nam
|
193 |
+
giới). Mùa hè năm 1971, bà làm công không lương tại Dublin, Ireland. Năm 1972,
|
194 |
+
khi 19 tuổi, Royal đã kiện cha mình vì ông từ chối li dị mẹ bà và trả tiền cấp
|
195 |
+
dưỡng và tiền nuôi dạy con cho việc học tập của các con. Bà thắng kiện sau nhiều
|
196 |
+
năm hầu toà, ngay trước khi Jacques Royal chết vì ung thư phổi năm 1981. Sáu trong
|
197 |
+
tám người con đã từ chối gặp lại ông, trong đó có cả Ségolène.
|
198 |
+
|
199 |
+
Royal, như hầu hết giới tinh hoa chính trị Pháp, là người tốt nghiệp Trường Hành
|
200 |
+
chính quốc gia (ENA). Bà học cùng lớp với người bạn đời trong 30 năm, François
|
201 |
+
Hollande (bà gặp ông tại một bữa tiệc), và Dominique de Villepin (thủ tướng dưới
|
202 |
+
thời Jacques Chirac).'
|
203 |
+
- 'Mặc dù Trung Hoa Dân Quốc thống trị khu vực Đài Loan từ thập niên 1950 có tính
|
204 |
+
độc lập, đồng thời đa số dân chúng cho rằng tự thân có chủ quyền quốc gia, song
|
205 |
+
do chịu uy hiếp quân sự của nước Cộng hòa Nhân dân Trung Hoa, khiến vấn đề Đài
|
206 |
+
Loan độc lập cực kỳ phức tạp. Đại bộ phận dân chúng hy vọng duy trì hiện trạng
|
207 |
+
hai bờ eo biển Đài Loan, song số lượng người chủ trương độc lập đông hơn người
|
208 |
+
chủ trương thống nhất. Ngoài ra, một bộ phận nhân sĩ chủ trương việc Trung Hoa
|
209 |
+
Dân Quốc thu hồi Đài Loan theo "Tuyên bố Cairo" có tranh nghị, cho rằng Trung
|
210 |
+
Hoa Dân Quốc chỉ đại diện cho Đồng Minh chiếm lĩnh quân sự Đài Loan và Bành Hồ;
|
211 |
+
đồng thời căn cứ theo Hiệp ước San Francisco tuyên bố chủ quyền Đài Loan chưa
|
212 |
+
xác định,cho rằng Trung Hoa Dân Quốc là chính phủ lưu vong nước ngoài từ miền
|
213 |
+
eo biển bên kia.
|
214 |
+
|
215 |
+
Hành chính.
|
216 |
+
|
217 |
+
Sau khi chính phủ Trung Hoa Dân Quốc dời sang Đài Loan vào năm 1949, họ chỉ có
|
218 |
+
thể thống trị các đảo thuộc tỉnh Đài Loan (bao gồm đảo Đài Loan, quần đảo Bành
|
219 |
+
Hồ) và tỉnh Phúc Kiến (bao gồm Kim Môn, Mã Tổ). Ngoài ra, chính phủ Trung Hoa
|
220 |
+
Dân Quốc còn khống chế quần đảo Đông Sa, và đảo Ba Bình thuộc quần đảo Trường
|
221 |
+
Sa trên biển Đông, giao các đảo này cho thành phố Cao Hùng phụ trách quản lý.
|
222 |
+
Trung Hoa Dân Quốc tham gia tranh chấp chủ quyền quần đảo Trường Sa (gọi là Nam
|
223 |
+
Sa) và quần đảo Senkaku (gọi là Điếu Ngư đài). Từ năm 1949 trở đi, chính phủ Trung
|
224 |
+
Hoa Dân Quốc từng nhiều lần cải cách phân chia hành chính nhằm tổng hợp phát triển
|
225 |
+
khu vực. Trong đó, chức năng của chính phủ cấp tỉnh của tỉnh Phúc Kiến và tỉnh
|
226 |
+
Đài Loan lần lượt được tinh giản vào năm 1956 và 1998, chỉ duy trì công tác mang
|
227 |
+
tính tượng trưng.
|
228 |
+
|
229 |
+
Ngoài ra, vào năm 1967 và năm 1979, thành phố Đài Bắc và thành phố Cao Hùng lần
|
230 |
+
lượt được tách khỏi tỉnh Đài Loan để chuyển sang trực thuộc trung ương. Năm 2010,
|
231 |
+
chính phủ lại chuyển các thành phố Tân Bắc, Đài Trung, Đài Nam sang trực thuộc
|
232 |
+
trung ương. Năm thành phố này cũng là năm thành thị trọng yếu nhất của Trung Hoa
|
233 |
+
Dân Quốc hiện nay, trong đó Tân Bắc nguyên là huyện Đài Bắc, Đài Trung cùng Đài
|
234 |
+
Nam và Cao Hùng hợp nhất với các huyện cùng tên.'
|
235 |
+
- 'Theo luật, Quỹ bao gồm một hội đồng quản trị của năm công dân Thụy Điển hay Na
|
236 |
+
Uy, với trụ sở tại Stockholm. Chủ tịch Hội đồng quản trị được Vua Thụy Điển bổ
|
237 |
+
nhiệm, với bốn thành viên khác do ủy thác của các tổ chức trao giải thưởng bổ
|
238 |
+
nhiệm. Một giám đốc điều hành được lựa chọn trong số các thành viên hội đồng quản
|
239 |
+
trị, Phó giám đốc được Vua Thụy Điển bổ nhiệm, và hai phó chủ tịch được bổ nhiệm
|
240 |
+
do người được ủy thác. Tuy nhiên, kể từ năm 1995, tất cả các thành viên của hội
|
241 |
+
đồng quản trị được lựa chọn bởi các ủy viên quản trị; Giám đốc điều hành và các
|
242 |
+
Phó Giám đốc chỉ định bởi chính hội đồng quản trị. Cũng như hội đồng quản trị,
|
243 |
+
Quỹ Nobel được tạo thành từ các tổ chức trao giải (Viện Hàn lâm Khoa học Hoàng
|
244 |
+
gia Thụy Điển, Đại hội đồng Nobel tại Viện Karolinska, Viện Hàn lâm Thụy Điển,
|
245 |
+
và các Ủy ban Nobel Na Uy), người được ủy thác của các tổ chức trên, và các kiểm
|
246 |
+
toán viên.
|
247 |
+
|
248 |
+
Huy chương Nobel.
|
249 |
+
|
250 |
+
Huy chương Nobel làm bằng 150 gram vàng 18 ca-ra chạm hình Alfred Nobel. Mặt sau
|
251 |
+
của tấm huy chương giải Nobel Vật lý và Hóa học là hình một phụ nữ để ngực trần.
|
252 |
+
|
253 |
+
Một số tấm huy chương Nobel đã được chủ nhân mang ra bán đấu giá. Tấm huy chương
|
254 |
+
Nobel Hòa bình được bán rẻ nhất trong đấu giá đó là của Aristide Briand, người
|
255 |
+
Pháp đã có đóng góp lớn trong năm 1926 vào cuộc hoà hợp ngắn ngủi Đức – Pháp.
|
256 |
+
Năm 2008 huy chương Nobel này được bảo tàng Ecomusée của Saint-Nazaire mua về
|
257 |
+
với khoản tiền 12 nghìn euro. Khá hơn một chút, huy chương Nobel Hoà bình của
|
258 |
+
người Anh William Randal Cremer vinh danh năm 1903 đã bán với giá 17.000 đô la
|
259 |
+
tại một cuộc đấu giá năm 1985.
|
260 |
+
|
261 |
+
Từ năm 2014, vi��c bán huy chương Nobel trở nên phổ thông. Cho tới giờ 8 huy chương
|
262 |
+
đã được bán kể từ đó. Cũng về giải Nobel Hoà bình, tấm huy chương của người Bỉ
|
263 |
+
Auguste Beernaert (được trao năm 1909) đã đạt tới giá 661 nghìn đô la và huy chương
|
264 |
+
Nobel của Carlos Saavedra Lamas, người Argentina, nhận năm 1936, thậm chí đã tìm
|
265 |
+
được người mua với giá kỷ lục 1,16 triệu đô la.
|
266 |
+
|
267 |
+
Kỷ lục hiện nay là huy chương của James Watson, người Mỹ được nhận giải nobel
|
268 |
+
Y học năm 1962 cho những phát hiện ra cấu trúc DNA. Ông đã bán được tấm huy chương
|
269 |
+
Nobel của mình với giá 4,76 triệu đô la Mỹ vào tháng 12/2014.'
|
270 |
+
- source_sentence: Phong trào kháng chiến Na Uy đã hoạt động như thế nào trong thời
|
271 |
+
gian chiếm đóng?
|
272 |
+
sentences:
|
273 |
+
- 'Michael Walzer (3/3/1935) là một trong số các triết gia chính trị hàng đầu của
|
274 |
+
Mỹ, giáo sư về hưu của Institute for Advanced Study, Đại học Princeton ở New Jersey,
|
275 |
+
đồng thời là tổng biên tập tạp chí khoa học Dissent, theo thiên hướng cánh tả,
|
276 |
+
ra hàng quý, về chính trị và văn hóa. Các đề tài của ông trải rộng từ tính hợp
|
277 |
+
pháp của các cuộc chiến cho tới dân tộc và nhân chủng học, kinh tế, xã hội và
|
278 |
+
trách nhiệm chính trị, với 27 sách và 300 bài viết, thành viên của hội triết gia
|
279 |
+
Hoa Kỳ.
|
280 |
+
|
281 |
+
Sinh ở New York City, nhưng Walzer xuất thân từ một gia đình Do Thái gốc Đông
|
282 |
+
Âu, được đào tạo bậc đại học trong ngôi trường Do Thái đầu tiên trên đất Mỹ Brandeis
|
283 |
+
University. Một phần do môi trường chính trị Hoa Kỳ không có nhiều chỗ hoạt động
|
284 |
+
cho cánh tả mà ông quyết định xuống đường cùng phong trào sinh viên chống Chiến
|
285 |
+
tranh Việt Nam.
|
286 |
+
|
287 |
+
Một trong số các phạm trù chính của Walzer là khái niệm "communitarianism" trong
|
288 |
+
chính trị học, bên cạnh các tên tuổi như Alasdair MacIntyre và Michael Sandel.
|
289 |
+
Khái niệm này có lẽ nên được tạm dịch là Chủ nghĩa cộng đồng, vì nó liên quan
|
290 |
+
và bắt nguồn từ chữ "community", và đề cao các giá trị chung trong khuôn khổ xã
|
291 |
+
hội công dân ("civic society") như một phản đề đối với chủ nghĩa cá nhân, và có
|
292 |
+
khác với "communalism", tức là Chủ nghĩa công xã, và tất nhiên còn khác xa với
|
293 |
+
Chủ nghĩa cộng sản - "communism". Walzer cũng đóng góp nhiều trong lý thuyết về
|
294 |
+
cuộc chiến chính nghĩa - "just war".
|
295 |
+
|
296 |
+
Walzer cho rằng mỗi lý thuyết chính trị cần phải khởi nguồn từ một xã hội nhất
|
297 |
+
định với truyền thống và văn hóa riêng, phản đối xu hướng trừu tượng hóa triết
|
298 |
+
học chính trị. Mô hình "communitarian" theo cách hiểu của Walzer là một xã hội
|
299 |
+
với những sự bình đẳng không đồng nhất - "complex equality". Theo đó, thước đo
|
300 |
+
của bình đẳng không chỉ đơn giản là vật chất hay đạo đức, mà nên hiểu theo nghĩa
|
301 |
+
công bằng một cách công bình ("egalitarian justice"), tức là phân phối hàng hóa
|
302 |
+
(vật chất và đạo đức) tùy thuộc vào giá trị xã hội của nó và không được phép (tiền
|
303 |
+
và quyền lực chính trị cũng là một thứ hàng hóa) chiếm ưu thế hoặc thay đổi sự
|
304 |
+
phân phối của các loại hàng hóa khác trong các lãnh vực khác.'
|
305 |
+
- 'Vua Haakon và chính phủ Na Uy tiếp tục cuộc chiến trong hoàn cảnh tị nạn tại
|
306 |
+
Rotherhithe, Luân Đôn. Vào ngày cuộc xâm lược diễn ra, vị đồng lãnh đạo của Đảng
|
307 |
+
Quốc gia-Xã hội nhỏ Nasjonal Samling — Vidkun Quisling — đã tìm cách lên nắm quyền
|
308 |
+
lực, nhưng đã bị quân chiếm đóng Đức gạt ra rìa. Quyền lực thực sự nằm trong tay
|
309 |
+
chính quyền chiếm đóng Đức, Reichskommissar Josef Terboven. Quisling, với tư cách
|
310 |
+
"bộ trưởng tổng thống", sau này đã thành lập một chính phủ liên minh dưới sự quản
|
311 |
+
lý của Đức. Các cơ sở tại Na Uy đã chế tạo nước nặng, một nguyên liệu chủ chốt
|
312 |
+
chế tạo vũ khí hạt nhân, và cuối cùng đã bị người Đức bỏ lại sau nhiều nỗ lực
|
313 |
+
phá huỷ cơ sở Vemork của người Na Uy, người Anh và người Mỹ. Trong những năm chiếm
|
314 |
+
đóng của Phát xít, người Na Uy đã xây dựng một phong trào kháng chiến mạnh chống
|
315 |
+
lại các lực lượng chiếm đóng Đức bằng cả chiến tranh vũ trang và bất tuân dân
|
316 |
+
sự. Tuy nhiên, yếu tố quan trọng hơn với Đồng Minh, là vai trò của hải quân thương
|
317 |
+
mại Na Uy. Ở thời điểm xảy ra cuộc xâm lược, Na Uy có hạm đội tàu biển thương
|
318 |
+
mại đứng hàng thứ tư thế giới (cũng như có tốc độ nhanh nhất và hiệu quả nhất).
|
319 |
+
Công ty tàu biển Na Uy Nortraship đã nằm dưới sự điều khiển của Đồng Minh trong
|
320 |
+
suốt cuộc chiến và tham gia vào mọi chiến dịch từ việc sơ tán Dunkirk tới cuộc
|
321 |
+
đổ bộ vào Normandy.
|
322 |
+
|
323 |
+
Sau cuộc chiến, những thành viên đảng Dân chủ Xã hội lên nắm quyền và lãnh đạo
|
324 |
+
quốc gia trong hầu hết thời gian cuộc chiến tranh lạnh. Na Uy đã gia nhập NATO
|
325 |
+
năm 1949, và trở thành một đồng minh thân cận của Hoa Kỳ. Hai cuộc trưng cầu dân
|
326 |
+
ý nhằm gia nhập Liên minh châu Âu (được gọi là Cộng đồng châu Âu năm 1972) đã
|
327 |
+
thất bại với tỷ số mong manh năm 1972 và 1994. Những nguồn dự trữ dầu mỏ và khí
|
328 |
+
gas lớn đã được khám phá trong thập niên 1960, dẫn tới sự bùng nổ kinh tế sau
|
329 |
+
đó.
|
330 |
+
|
331 |
+
Địa lý, khí hậu và môi trường.
|
332 |
+
|
333 |
+
Na Uy gồm phần phía tây của Scandinavia ở Bắc Âu. Bờ biển lởm chởm, bị chia cắt
|
334 |
+
bởi nhiều vịnh hẹp (fjord) và khoảng 50.000 hòn đảo, trải dài hơn 2.500 km.'
|
335 |
+
- 'Các vị sư trong chùa tu hành theo tông phái nào cũng không quan trọng, miễn là
|
336 |
+
các vị sư này giữ gìn được các giáo giới quan trọng nhất của Phật giáo (không
|
337 |
+
sát sinh, không trộm cắp, không phạm sắc giới, không uống rượu, không ăn thịt).
|
338 |
+
Họ cũng không có hiểu biết sâu sắc về giáo lý Phật giáo mà chỉ hiểu đơn giản là
|
339 |
+
thiện nghiệp thiện báo hoặc thậm chí hiểu sai lạc cúng dường cho chùa nhiều thì
|
340 |
+
thiện báo. Có người đến chùa chỉ để cầu xin cho bản thân và coi Phật như là thần
|
341 |
+
linh có thể giúp họ toại nguyện chứ không hiểu rằng những gì họ nhận được chính
|
342 |
+
là kết quả của những gì họ tạo ra. Còn những sinh hoạt như cúng bái, cầu siêu,
|
343 |
+
cầu an, bói toán, thỉnh vong, đốt vàng mã... là những hoạt động được du nhập vào
|
344 |
+
Phật giáo từ Nho giáo, Đạo giáo và Shaman giáo.
|
345 |
+
|
346 |
+
Trung Quốc.
|
347 |
+
|
348 |
+
"Bài chi tiết: Phật giáo Trung Quốc"
|
349 |
+
|
350 |
+
Theo sử liệu cho thấy Phật giáo được giới thiệu đến Trung Quốc do các nhà buôn
|
351 |
+
hay các nhà sư truyền giáo người Ấn qua các ngã đường biển và đường bộ. Về đường
|
352 |
+
biển thì xuất phát từ các hải cảng vùng Nam Ấn rồi qua ngã Sri Lanka, Nam Dương
|
353 |
+
để vào hải cảng Quảng Đông. Về đường bộ, còn gọi là con đường tơ lụa (Silk road)
|
354 |
+
nối liền Đông Tây, di chuyển bằng lạc đà, xuất phát từ miền Đông Bắc Ấn, rồi băng
|
355 |
+
qua các sa mạc ở Trung Á để tới Lạc Dương (kinh đô của nhà Hán).
|
356 |
+
|
357 |
+
Theo biên niên sử thì Phật giáo truyền đến Trung Quốc vào thế kỷ thứ 2 trước Công
|
358 |
+
Nguyên từ Trung Á nhằm niên hiệu Nguyên Thọ đời vua Hán Ai Đế nhà Tây Hán, nhưng
|
359 |
+
Phật giáo không truyền bá rộng rãi cho đến năm 65 Công nguyên, dưới triều vua
|
360 |
+
Hán Minh Đế (niên hiệu Vĩnh Bình thứ 10 nhà Hậu Hán, 25-220 công nguyên), thì
|
361 |
+
Phật giáo mới bắt đầu cắm rễ và phát triển ở Trung Quốc. Vì muốn thần dân tu học
|
362 |
+
Phật pháp nên vua Minh Đế đã cử một phái đoàn gồm 18 người đến Ấn Độ để thỉnh
|
363 |
+
cầu hai Thiền sư người Ấn là Ca Diếp Ma Đằng (Kàsyapama''tanga) và Trúc Pháp Lan
|
364 |
+
(Dharmaraksa) đến Trung Quốc hoằng pháp.'
|
365 |
+
- source_sentence: Quận Sông Bé được thành lập vào thời điểm nào và dựa trên cơ sở
|
366 |
+
nào?
|
367 |
+
sentences:
|
368 |
+
- 'Quang Châu có thể là:'
|
369 |
+
- 'Mạng lưới sông rạch.
|
370 |
+
|
371 |
+
Toàn huyện có 355 km kênh mương thủy lợi chính, gồm 80 km kênh cấp I và 275 km
|
372 |
+
kênh cấp II, bình quân 1 ha đất canh tác có 12,62m kênh mương thủy lợi.
|
373 |
+
|
374 |
+
Do nằm ven sông Cổ Chiên và có cù lao Hoà Minh – Long Hoà chạy dài ra sát cửa
|
375 |
+
Cung Hầu nên huyện Châu Thành chịu ảnh hưởng chế độ bán nhật trìêu của biển Đông,
|
376 |
+
thông qua đoạn sông Cổ Chiên vào các hệ thống sông rạch lớn như: Láng Thé – Ba
|
377 |
+
Si – Ô Chát, sông Trà Vinh – Kinh Thống Nhất hệ Tầm Phương, sông Bãi Vàng – Vinh
|
378 |
+
Kim. Ngoài ra, do yêu cầu tiếp ngọt với hai cống ngăn mặn Đa Lộc, Hiệp Hòa vào
|
379 |
+
mùa khô, nguồn nước từ Cầu Quan (sông Hậu) được đưa sang kinh Thống Nhất và Trà
|
380 |
+
Vinh. Trong ngày nước lên xuống hai l���n, mỗi tháng có 2 lần triều cường sau ngày
|
381 |
+
1 và ngày 15 âl và 2 lần triều kèm sau ngày 7 và 23 âl (từ 2 đến 3 ngày), biên
|
382 |
+
độ triều hàng ngày rất lớn, nhất là các khu vực gần cửa sông.
|
383 |
+
|
384 |
+
Biên độ tắt dần khi vào nội đồng, đặc biệt vào mùa triều cường (tháng 10,12 dương
|
385 |
+
lịch) đối với vùng kinh Thông Nhất qua ngọn Ô Chát chịu ảnh hưởng chung của sông
|
386 |
+
Cổ Chiên và sông Hậu, biên độ triều hàng ngày nhỏ và hầu như không đáng kể vào
|
387 |
+
thời kỳ triều cường nhất trong năm. Một số vùng thấp (Thanh Mỹ – Đa Lộc) có thời
|
388 |
+
gian nước trên đồng không rút được, dù độ ngập không lớn.
|
389 |
+
|
390 |
+
Vào mùa khô, triều cường và gió chướng đã đưa nước mặn xâm nhập vào nội đồng,
|
391 |
+
độ mặn trung bình thay đổi từ 2,24‰ -9,96‰ từ cuối tháng 1 đến tháng 6, tuy nhiên
|
392 |
+
tháng tư có độ mặn cao nhất trên 18‰ (Hưng Mỹ). Các cửa sông gần biển thì độ mặn
|
393 |
+
càng cao. Do dự trữ nước nội đồng và nguồn bổ sung từ trên xuống, từ sông Hậu
|
394 |
+
sang nên độ mặn giảm dần khi vào nội đồng.
|
395 |
+
|
396 |
+
Hành chính.
|
397 |
+
|
398 |
+
Huyện Châu Thành có 14 đơn vị hành chính cấp xã trực thuộc, bao gồm thị trấn Châu
|
399 |
+
Thành và 13 xã: Đa Lộc, Hòa Lợi, Hòa Minh, Hòa Thuận, Hưng Mỹ, Long Hòa, Lương
|
400 |
+
Hòa, Lương Hòa A, Mỹ Chánh, Nguyệt Hóa, Phước Hảo, Song Lộc, Thanh Mỹ.
|
401 |
+
|
402 |
+
Lịch sử.'
|
403 |
+
- 'Quận Sông Bé được thành lập theo Nghị định của Toàn quyền Đông Dương ngày 25
|
404 |
+
tháng 10 năm 1927 trên cơ sở đổi tên quận Phú Riềng (thuộc tỉnh Biên Hòa) và chuyển
|
405 |
+
quận lị về Bu Kroai (nay thuộc xã Đức Hạnh, huyện Bù Gia Mập).
|
406 |
+
|
407 |
+
Ngày 20 tháng 5 năm 1933, cùng với việc chuyển quận lị Sông Bé về núi Bà Rá, quận
|
408 |
+
Sông Bé được đổi tên thành quận Núi Bà Rá.
|
409 |
+
|
410 |
+
Quận Núi Bà Rá được nâng cấp thành tỉnh Phước Long theo Sắc lệnh số 143-NV ngày
|
411 |
+
22 tháng 10 năm 1956 do Tổng thống Việt Nam Cộng hòa ký, chia Nam phần thành 22
|
412 |
+
tỉnh. Tỉnh lỵ tỉnh Phước Long đặt tại Phước Bình, về mặt hành chính thuộc xã Sơn
|
413 |
+
Giang, quận Phước Bình (nay là khu vực trung tâm thị xã Phước Long). Địa bàn quận
|
414 |
+
Sông Bé nay thuộc tỉnh Bình Phước.'
|
415 |
+
---
|
416 |
+
|
417 |
+
# SentenceTransformer based on BAAI/bge-m3
|
418 |
+
|
419 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
420 |
+
|
421 |
+
## Model Details
|
422 |
+
|
423 |
+
### Model Description
|
424 |
+
- **Model Type:** Sentence Transformer
|
425 |
+
- **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision 5617a9f61b028005a4858fdac845db406aefb181 -->
|
426 |
+
- **Maximum Sequence Length:** 8192 tokens
|
427 |
+
- **Output Dimensionality:** 1024 dimensions
|
428 |
+
- **Similarity Function:** Cosine Similarity
|
429 |
+
<!-- - **Training Dataset:** Unknown -->
|
430 |
+
<!-- - **Language:** Unknown -->
|
431 |
+
<!-- - **License:** Unknown -->
|
432 |
+
|
433 |
+
### Model Sources
|
434 |
+
|
435 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
436 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
437 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
438 |
+
|
439 |
+
### Full Model Architecture
|
440 |
+
|
441 |
+
```
|
442 |
+
SentenceTransformer(
|
443 |
+
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
|
444 |
+
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
445 |
+
(2): Normalize()
|
446 |
+
)
|
447 |
+
```
|
448 |
+
|
449 |
+
## Usage
|
450 |
+
|
451 |
+
### Direct Usage (Sentence Transformers)
|
452 |
+
|
453 |
+
First install the Sentence Transformers library:
|
454 |
+
|
455 |
+
```bash
|
456 |
+
pip install -U sentence-transformers
|
457 |
+
```
|
458 |
+
|
459 |
+
Then you can load this model and run inference.
|
460 |
+
```python
|
461 |
+
from sentence_transformers import SentenceTransformer
|
462 |
+
|
463 |
+
# Download from the 🤗 Hub
|
464 |
+
model = SentenceTransformer("strongpear/M3-retriever-Wiki")
|
465 |
+
# Run inference
|
466 |
+
sentences = [
|
467 |
+
'Quận Sông Bé được thành lập vào thời điểm nào và dựa trên cơ sở nào?',
|
468 |
+
'Quận Sông Bé được thành lập theo Nghị định của Toàn quyền Đông Dương ngày 25 tháng 10 năm 1927 trên cơ sở đổi tên quận Phú Riềng (thuộc tỉnh Biên Hòa) và chuyển quận lị về Bu Kroai (nay thuộc xã Đức Hạnh, huyện Bù Gia Mập).\nNgày 20 th��ng 5 năm 1933, cùng với việc chuyển quận lị Sông Bé về núi Bà Rá, quận Sông Bé được đổi tên thành quận Núi Bà Rá.\nQuận Núi Bà Rá được nâng cấp thành tỉnh Phước Long theo Sắc lệnh số 143-NV ngày 22 tháng 10 năm 1956 do Tổng thống Việt Nam Cộng hòa ký, chia Nam phần thành 22 tỉnh. Tỉnh lỵ tỉnh Phước Long đặt tại Phước Bình, về mặt hành chính thuộc xã Sơn Giang, quận Phước Bình (nay là khu vực trung tâm thị xã Phước Long). Địa bàn quận Sông Bé nay thuộc tỉnh Bình Phước.',
|
469 |
+
'Mạng lưới sông rạch.\nToàn huyện có 355\xa0km kênh mương thủy lợi chính, gồm 80\xa0km kênh cấp I và 275\xa0km kênh cấp II, bình quân 1 ha đất canh tác có 12,62m kênh mương thủy lợi.\nDo nằm ven sông Cổ Chiên và có cù lao Hoà Minh – Long Hoà chạy dài ra sát cửa Cung Hầu nên huyện Châu Thành chịu ảnh hưởng chế độ bán nhật trìêu của biển Đông, thông qua đoạn sông Cổ Chiên vào các hệ thống sông rạch lớn như: Láng Thé – Ba Si – Ô Chát, sông Trà Vinh – Kinh Thống Nhất hệ Tầm Phương, sông Bãi Vàng – Vinh Kim. Ngoài ra, do yêu cầu tiếp ngọt với hai cống ngăn mặn Đa Lộc, Hiệp Hòa vào mùa khô, nguồn nước từ Cầu Quan (sông Hậu) được đưa sang kinh Thống Nhất và Trà Vinh. Trong ngày nước lên xuống hai lần, mỗi tháng có 2 lần triều cường sau ngày 1 và ngày 15 âl và 2 lần triều kèm sau ngày 7 và 23 âl (từ 2 đến 3 ngày), biên độ triều hàng ngày rất lớn, nhất là các khu vực gần cửa sông.\nBiên độ tắt dần khi vào nội đồng, đặc biệt vào mùa triều cường (tháng 10,12 dương lịch) đối với vùng kinh Thông Nhất qua ngọn Ô Chát chịu ảnh hưởng chung của sông Cổ Chiên và sông Hậu, biên độ triều hàng ngày nhỏ và hầu như không đáng kể vào thời kỳ triều cường nhất trong năm. Một số vùng thấp (Thanh Mỹ – Đa Lộc) có thời gian nước trên đồng không rút được, dù độ ngập không lớn.\nVào mùa khô, triều cường và gió chướng đã đưa nước mặn xâm nhập vào nội đồng, độ mặn trung bình thay đổi từ 2,24‰ -9,96‰ từ cuối tháng 1 đến tháng 6, tuy nhiên tháng tư có độ mặn cao nhất trên 18‰ (Hưng Mỹ). Các cửa sông gần biển thì độ mặn càng cao. Do dự trữ nước nội đồng và nguồn bổ sung từ trên xuống, từ sông Hậu sang nên độ mặn giảm dần khi vào nội đồng.\nHành chính.\nHuyện Châu Thành có 14 đơn vị hành chính cấp xã trực thuộc, bao gồm thị trấn Châu Thành và 13 xã: Đa Lộc, Hòa Lợi, Hòa Minh, Hòa Thuận, Hưng Mỹ, Long Hòa, Lương Hòa, Lương Hòa A, Mỹ Chánh, Nguyệt Hóa, Phước Hảo, Song Lộc, Thanh Mỹ.\nLịch sử.',
|
470 |
+
]
|
471 |
+
embeddings = model.encode(sentences)
|
472 |
+
print(embeddings.shape)
|
473 |
+
# [3, 1024]
|
474 |
+
|
475 |
+
# Get the similarity scores for the embeddings
|
476 |
+
similarities = model.similarity(embeddings, embeddings)
|
477 |
+
print(similarities.shape)
|
478 |
+
# [3, 3]
|
479 |
+
```
|
480 |
+
|
481 |
+
<!--
|
482 |
+
### Direct Usage (Transformers)
|
483 |
+
|
484 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
485 |
+
|
486 |
+
</details>
|
487 |
+
-->
|
488 |
+
|
489 |
+
<!--
|
490 |
+
### Downstream Usage (Sentence Transformers)
|
491 |
+
|
492 |
+
You can finetune this model on your own dataset.
|
493 |
+
|
494 |
+
<details><summary>Click to expand</summary>
|
495 |
+
|
496 |
+
</details>
|
497 |
+
-->
|
498 |
+
|
499 |
+
<!--
|
500 |
+
### Out-of-Scope Use
|
501 |
+
|
502 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
503 |
+
-->
|
504 |
+
|
505 |
+
<!--
|
506 |
+
## Bias, Risks and Limitations
|
507 |
+
|
508 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
509 |
+
-->
|
510 |
+
|
511 |
+
<!--
|
512 |
+
### Recommendations
|
513 |
+
|
514 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
515 |
+
-->
|
516 |
+
|
517 |
+
## Training Details
|
518 |
+
|
519 |
+
### Training Dataset
|
520 |
+
|
521 |
+
#### Unnamed Dataset
|
522 |
+
|
523 |
+
|
524 |
+
* Size: 148,500 training samples
|
525 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
526 |
+
* Approximate statistics based on the first 1000 samples:
|
527 |
+
| | anchor | positive |
|
528 |
+
|:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
529 |
+
| type | string | string |
|
530 |
+
| details | <ul><li>min: 7 tokens</li><li>mean: 19.77 tokens</li><li>max: 40 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 408.51 tokens</li><li>max: 699 tokens</li></ul> |
|
531 |
+
* Samples:
|
532 |
+
| anchor | positive |
|
533 |
+
|:--------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
534 |
+
| <code>Adidas đã thực hiện những bước tiến nào trong lĩnh vực giày thể thao từ năm 2005 đến 2006?</code> | <code>Vào ngày 25 tháng 11 năm 2005, Adidas đã phát hành phiên bản mới của Adidas 1 với phạm vi đệm tăng lên, cho phép giày trở nên mềm hơn hoặc cứng hơn và một động cơ mới có mô-men xoắn lớn hơn 153%.<br>Vào ngày 11 tháng 4 năm 2006, Adidas công bố hợp đồng 11 năm để trở thành nhà cung cấp quần áo chính thức của NBA. Công ty đã và đang sản xuất áo thi đấu và các sản phẩm của NBA, NBDL và WNBA cũng như các phiên bản màu đội của giày bóng rổ "Superstar". Thỏa thuận này (trị giá hơn 400 triệu đô la) đã tiếp quản thỏa thuận Reebok trước đó đã được thực hiện vào năm 2001 trong 10 năm.<br>Vào tháng 11 năm 2011, Adidas thông báo rằng họ sẽ mua lại thương hiệu biểu diễn thể thao hành động ngoài trời Five Ten thông qua một thỏa thuận mua cổ phần. Tổng giá mua là 25 triệu đô la Mỹ bằng tiền mặt khi đóng cửa.<br>Những năm gần đây.<br>Vào cuối năm 2012, Adidas đã báo cáo doanh thu cao nhất từ trước đến nay và Giám đốc điều hành Herbert Hainer bày tỏ sự lạc quan cho năm tới. Adidas hiện có trụ sở công ty toàn cầu...</code> |
|
535 |
+
| <code>Tại sao Hồ Nhất Đao chết và điều gì xảy ra với vợ của ông?</code> | <code>Không may Miêu Nhân Phụng (cầm đao của Hồ Nhất Đao) làm bị thương Hồ Nhất Đao, thế là Hồ Nhất Đao chết vì bị độc, vợ của Hồ Nhất Đao mới sinh được một đứa con trai - là nhân vật chính Hồ Phỉ - cũng tự sát theo chồng. Bi kịch thù hận bốn họ tạm thời ngưng lại trong sự hối hận của Miêu Nhân Phụng, ông chôn cất vợ chồng Hồ Nhất Đao và hàng năm tế bái, coi họ là anh em, suốt đời ân hận vì đã nỡ tay hại chết tri kỷ.<br>Hồ Phỉ hóa giải ân oán.<br>Đoạn này lẫn lộn nội dung Tuyết Sơn Phi Hồ và Phi Hồ Ngoại Truyện<br>Khi Hồ Nhất Đao chết, bọn Điền Quy Nông muốn trừ hậu họa nên lục tìm giết đứa bé, nhưng Bình A Tứ (một người hầu nghèo khổ trong quán trước đó được Hồ Nhất Đao cứu giúp, chịu ơn lớn của Hồ Nhất Đao) đã nhanh tay cứu mang đứa bé đi. Thầy lang Diêm Cơ định cướp đao phổ nhưng không thành, chỉ giật được vài trang đầu sau đó đi tu luyện thành võ công cao cường lấy hiệu là Bảo Thụ.<br>Bình A Tứ nuôi lớn Hồ Phỉ, Hồ Phỉ luyện thành võ công cao cường, quay lại tìm hiểu bí mật cái chết của cha mẹ (chi t...</code> |
|
536 |
+
| <code>Thế hệ thứ nhất của RAF đã thực hiện những hoạt động gì trong giai đoạn 1970-1972?</code> | <code>Thế hệ thứ nhất.<br>Thế hệ thứ nhất của RAF (Andreas Baader, Gudrun Ensslin, Holger Meins, Ulrike Meinhof, Jan-Carl Raspe và nhiều người khác) trong thời gian từ 1970 đến 1972 đã thực hiện nhiều vụ đánh cướp ngân hàng, đánh bom các cơ sở quân sự Mỹ, trong đó có sở tổng chỉ huy quân đội Mỹ tại Frankfurt am Main, và cơ quan nhà nước, qua đó đã có bốn người chết và trên 30 người bị thương. Trong tháng 6 năm 1972 những người nắm vai trò chủ chốt bị bắt giam: Andreas Baader, Holger Meins và Jan-Carl Raspe tại Frankfurt, Gudrun Ensslin tại Hamburg, Brigitte Mohnhaupt tại Tây Berlin và Ulrike Meinhof tại Hannover. Tháng 5 năm 1975 họ bị khởi tố và trong tháng 4 năm 1977 sau 192 ngày xử án bị tuyên án tù chung thân vì tội giết người ngoài những tội khác.<br>Trong nhà giam, nhóm người này khiếu nại về điều kiện giam giữ được thắt chặt như là tra tấn bằng cách cô lập và yêu cầu hủy bỏ điều này cũng như là công nhận quy chế tù nhân chiến tranh và những điều khác. Để tăng sức ép cho yêu cầu, họ đã nhiều...</code> |
|
537 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
538 |
+
```json
|
539 |
+
{
|
540 |
+
"scale": 20.0,
|
541 |
+
"similarity_fct": "cos_sim"
|
542 |
+
}
|
543 |
+
```
|
544 |
+
|
545 |
+
### Evaluation Dataset
|
546 |
+
|
547 |
+
#### Unnamed Dataset
|
548 |
+
|
549 |
+
|
550 |
+
* Size: 1,500 evaluation samples
|
551 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
552 |
+
* Approximate statistics based on the first 1000 samples:
|
553 |
+
| | anchor | positive |
|
554 |
+
|:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
555 |
+
| type | string | string |
|
556 |
+
| details | <ul><li>min: 7 tokens</li><li>mean: 19.84 tokens</li><li>max: 48 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 410.74 tokens</li><li>max: 657 tokens</li></ul> |
|
557 |
+
* Samples:
|
558 |
+
| anchor | positive |
|
559 |
+
|:--------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
560 |
+
| <code>Pennsylvania được gọi là gì và có những đặc điểm gì liên quan đến chính quyền?</code> | <code>Ngày nay, hai thành phố lớn của tiểu bang là —Philadelphia, quê hương của chuông Liberty, sảnh Independence, là một khu đô thị sầm uất, và Pittsburgh, một cảng sông bận rộn bên trong lục địa và là một trung tâm lớn cho giáo dục và các tiến bộ kỹ thuật. Dãy núi Pocono và Delaware Water Gap cung cấp các hoạt động giải trí phổ thông.<br>Pennsylvania là một "Commonwealth", mặc cho nó có State Treasury và State Police. Massachusetts, Virginia và Kentucky cũng được biết như là "Commonwealth".<br>Chiến hạm USS "Pennsylvania", bị hư hỏng tại Trân Châu Cảng "(Pearl Harbor)", được đặt tên để vinh danh tiểu bang này, cũng như là một vài chiến hạm hải quân khác. Nó được sửa chữa lại Sun Ship Yard & Dry Dock trước đây ở Chester, Pennsylvania.</code> |
|
561 |
+
| <code>Romaja là gì và nó có liên quan như thế nào đến việc ghi tiếng Hàn Quốc?</code> | <code>Romaja hay cách ghi tiếng Hàn Quốc (Triều Tiên) bằng chữ latinh là các phương pháp ghi tiếng Triều Tiên bằng chữ cái Latinh. Romaja có nghĩa là "La Mã tự" hay "chữ La Mã". Romaja quốc ngữ là phương pháp nhiều người thường dùng nhất.<br>"Romaja" không được nhầm lẫn với "romanization (La-tinh hóa)". Cách viết thứ nhất có thể được áp dụng cho bất kỳ cách sử dụng chữ cái Latinh nào trong văn bản tiếng Hàn - cho dù đối với các từ hoặc tên tiếng Hàn hoặc không phải tiếng Hàn Quốc - trong khi cách viết thứ hai đề cập đến việc viết các từ tiếng Hàn bằng hệ thống chữ Latinh: hoặc là chữ La tinh hóa các từ riêng lẻ trong văn bản tiếng Hàn, hoặc viết toàn bộ văn bản tiếng Hàn bằng hệ thống chữ Latinh.<br>Hệ thống.<br>Nhiều lược đồ La tinh hóa đang được sử dụng phổ biến:</code> |
|
562 |
+
| <code>Tây Sơn có vai trò gì trong địa lý của Bắc Kinh?</code> | <code>Địa lý.<br>Địa hình.<br>Thành phố Bắc Kinh nằm trên vùng đất thấp và bằng phẳng, với độ cao thường nằm trong khoảng 40-60m trên mực nước biển. Điểm cao nhất trong khu thành cổ là đỉnh của Cảnh Sơn với độ cao là 88,35 m, từ đây có thể nhìn toàn cảnh Tử Cấm thành. Đỉnh của Vạn Thọ Sơn (万寿山) thuộc Di Hòa Viên có độ cao . Vùng đồng bằng từ Bắc Kinh kéo dài xa về phía đông đến Sơn Hải quan bên bờ Bột Hải và xa về phía nam đến Nam Kinh.<br>Ở phía tây Bắc Kinh có Tây Sơn, có thể nhìn thấy núi này từ nội thị vào những ngày quang đãng. Tây Sơn tạo thành sườn núi phía đông của Thái Hành Sơn- dãy núi chạy theo chiều bắc-nam và tạo thành xương sống phía tây của Hà Bắc. Tây Sơn bao trùm gần như toàn bộ các quận Phòng Sơn và Môn Đầu Câu ở phía tây thành phố. Đông Linh Sơn (东灵山, cao ), một đỉnh núi của Tây Sơn nằm trên ranh giới với Hà Bắc, là đỉnh cao nhất tại Bắc Kinh. Đỉnh này nằm cách trung tâm thành phố . Tây Sơn cũng được biết đến với các đồng cỏ núi cao và các hẻm núi sông, bao gồm Thập Độ (十渡). Vùng c...</code> |
|
563 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
564 |
+
```json
|
565 |
+
{
|
566 |
+
"scale": 20.0,
|
567 |
+
"similarity_fct": "cos_sim"
|
568 |
+
}
|
569 |
+
```
|
570 |
+
|
571 |
+
### Training Hyperparameters
|
572 |
+
#### Non-Default Hyperparameters
|
573 |
+
|
574 |
+
- `eval_strategy`: steps
|
575 |
+
- `per_device_train_batch_size`: 32
|
576 |
+
- `per_device_eval_batch_size`: 32
|
577 |
+
- `num_train_epochs`: 1
|
578 |
+
- `warmup_ratio`: 0.1
|
579 |
+
- `bf16`: True
|
580 |
+
- `batch_sampler`: no_duplicates
|
581 |
+
|
582 |
+
#### All Hyperparameters
|
583 |
+
<details><summary>Click to expand</summary>
|
584 |
+
|
585 |
+
- `overwrite_output_dir`: False
|
586 |
+
- `do_predict`: False
|
587 |
+
- `eval_strategy`: steps
|
588 |
+
- `prediction_loss_only`: True
|
589 |
+
- `per_device_train_batch_size`: 32
|
590 |
+
- `per_device_eval_batch_size`: 32
|
591 |
+
- `per_gpu_train_batch_size`: None
|
592 |
+
- `per_gpu_eval_batch_size`: None
|
593 |
+
- `gradient_accumulation_steps`: 1
|
594 |
+
- `eval_accumulation_steps`: None
|
595 |
+
- `torch_empty_cache_steps`: None
|
596 |
+
- `learning_rate`: 5e-05
|
597 |
+
- `weight_decay`: 0.0
|
598 |
+
- `adam_beta1`: 0.9
|
599 |
+
- `adam_beta2`: 0.999
|
600 |
+
- `adam_epsilon`: 1e-08
|
601 |
+
- `max_grad_norm`: 1.0
|
602 |
+
- `num_train_epochs`: 1
|
603 |
+
- `max_steps`: -1
|
604 |
+
- `lr_scheduler_type`: linear
|
605 |
+
- `lr_scheduler_kwargs`: {}
|
606 |
+
- `warmup_ratio`: 0.1
|
607 |
+
- `warmup_steps`: 0
|
608 |
+
- `log_level`: passive
|
609 |
+
- `log_level_replica`: warning
|
610 |
+
- `log_on_each_node`: True
|
611 |
+
- `logging_nan_inf_filter`: True
|
612 |
+
- `save_safetensors`: True
|
613 |
+
- `save_on_each_node`: False
|
614 |
+
- `save_only_model`: False
|
615 |
+
- `restore_callback_states_from_checkpoint`: False
|
616 |
+
- `no_cuda`: False
|
617 |
+
- `use_cpu`: False
|
618 |
+
- `use_mps_device`: False
|
619 |
+
- `seed`: 42
|
620 |
+
- `data_seed`: None
|
621 |
+
- `jit_mode_eval`: False
|
622 |
+
- `use_ipex`: False
|
623 |
+
- `bf16`: True
|
624 |
+
- `fp16`: False
|
625 |
+
- `fp16_opt_level`: O1
|
626 |
+
- `half_precision_backend`: auto
|
627 |
+
- `bf16_full_eval`: False
|
628 |
+
- `fp16_full_eval`: False
|
629 |
+
- `tf32`: None
|
630 |
+
- `local_rank`: 0
|
631 |
+
- `ddp_backend`: None
|
632 |
+
- `tpu_num_cores`: None
|
633 |
+
- `tpu_metrics_debug`: False
|
634 |
+
- `debug`: []
|
635 |
+
- `dataloader_drop_last`: False
|
636 |
+
- `dataloader_num_workers`: 0
|
637 |
+
- `dataloader_prefetch_factor`: None
|
638 |
+
- `past_index`: -1
|
639 |
+
- `disable_tqdm`: False
|
640 |
+
- `remove_unused_columns`: True
|
641 |
+
- `label_names`: None
|
642 |
+
- `load_best_model_at_end`: False
|
643 |
+
- `ignore_data_skip`: False
|
644 |
+
- `fsdp`: []
|
645 |
+
- `fsdp_min_num_params`: 0
|
646 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
647 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
648 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
649 |
+
- `deepspeed`: None
|
650 |
+
- `label_smoothing_factor`: 0.0
|
651 |
+
- `optim`: adamw_torch
|
652 |
+
- `optim_args`: None
|
653 |
+
- `adafactor`: False
|
654 |
+
- `group_by_length`: False
|
655 |
+
- `length_column_name`: length
|
656 |
+
- `ddp_find_unused_parameters`: None
|
657 |
+
- `ddp_bucket_cap_mb`: None
|
658 |
+
- `ddp_broadcast_buffers`: False
|
659 |
+
- `dataloader_pin_memory`: True
|
660 |
+
- `dataloader_persistent_workers`: False
|
661 |
+
- `skip_memory_metrics`: True
|
662 |
+
- `use_legacy_prediction_loop`: False
|
663 |
+
- `push_to_hub`: False
|
664 |
+
- `resume_from_checkpoint`: None
|
665 |
+
- `hub_model_id`: None
|
666 |
+
- `hub_strategy`: every_save
|
667 |
+
- `hub_private_repo`: False
|
668 |
+
- `hub_always_push`: False
|
669 |
+
- `gradient_checkpointing`: False
|
670 |
+
- `gradient_checkpointing_kwargs`: None
|
671 |
+
- `include_inputs_for_metrics`: False
|
672 |
+
- `eval_do_concat_batches`: True
|
673 |
+
- `fp16_backend`: auto
|
674 |
+
- `push_to_hub_model_id`: None
|
675 |
+
- `push_to_hub_organization`: None
|
676 |
+
- `mp_parameters`:
|
677 |
+
- `auto_find_batch_size`: False
|
678 |
+
- `full_determinism`: False
|
679 |
+
- `torchdynamo`: None
|
680 |
+
- `ray_scope`: last
|
681 |
+
- `ddp_timeout`: 1800
|
682 |
+
- `torch_compile`: False
|
683 |
+
- `torch_compile_backend`: None
|
684 |
+
- `torch_compile_mode`: None
|
685 |
+
- `dispatch_batches`: None
|
686 |
+
- `split_batches`: None
|
687 |
+
- `include_tokens_per_second`: False
|
688 |
+
- `include_num_input_tokens_seen`: False
|
689 |
+
- `neftune_noise_alpha`: None
|
690 |
+
- `optim_target_modules`: None
|
691 |
+
- `batch_eval_metrics`: False
|
692 |
+
- `eval_on_start`: False
|
693 |
+
- `use_liger_kernel`: False
|
694 |
+
- `eval_use_gather_object`: False
|
695 |
+
- `prompts`: None
|
696 |
+
- `batch_sampler`: no_duplicates
|
697 |
+
- `multi_dataset_batch_sampler`: proportional
|
698 |
+
|
699 |
+
</details>
|
700 |
+
|
701 |
+
### Training Logs
|
702 |
+
| Epoch | Step | Training Loss | Validation Loss |
|
703 |
+
|:------:|:----:|:-------------:|:---------------:|
|
704 |
+
| 0.0431 | 200 | 0.0372 | 0.0122 |
|
705 |
+
| 0.0862 | 400 | 0.0226 | 0.0162 |
|
706 |
+
| 0.1293 | 600 | 0.0305 | 0.0181 |
|
707 |
+
| 0.1724 | 800 | 0.0351 | 0.0205 |
|
708 |
+
| 0.2155 | 1000 | 0.0326 | 0.0171 |
|
709 |
+
| 0.2586 | 1200 | 0.0289 | 0.0156 |
|
710 |
+
| 0.3017 | 1400 | 0.028 | 0.0169 |
|
711 |
+
| 0.3448 | 1600 | 0.0273 | 0.0199 |
|
712 |
+
| 0.3878 | 1800 | 0.0216 | 0.0180 |
|
713 |
+
| 0.4309 | 2000 | 0.0252 | 0.0122 |
|
714 |
+
| 0.4740 | 2200 | 0.0213 | 0.0138 |
|
715 |
+
| 0.5171 | 2400 | 0.0254 | 0.0142 |
|
716 |
+
| 0.5602 | 2600 | 0.0202 | 0.0155 |
|
717 |
+
| 0.6033 | 2800 | 0.0168 | 0.0145 |
|
718 |
+
| 0.6464 | 3000 | 0.0176 | 0.0123 |
|
719 |
+
| 0.6895 | 3200 | 0.0212 | 0.0123 |
|
720 |
+
| 0.7326 | 3400 | 0.0166 | 0.0102 |
|
721 |
+
| 0.7757 | 3600 | 0.0181 | 0.0102 |
|
722 |
+
| 0.8188 | 3800 | 0.0158 | 0.0086 |
|
723 |
+
| 0.8619 | 4000 | 0.0151 | 0.0090 |
|
724 |
+
| 0.9050 | 4200 | 0.0134 | 0.0095 |
|
725 |
+
| 0.9481 | 4400 | 0.012 | 0.0093 |
|
726 |
+
| 0.9912 | 4600 | 0.0134 | 0.0090 |
|
727 |
+
|
728 |
+
|
729 |
+
### Framework Versions
|
730 |
+
- Python: 3.9.20
|
731 |
+
- Sentence Transformers: 3.3.1
|
732 |
+
- Transformers: 4.45.2
|
733 |
+
- PyTorch: 2.4.0+cu121
|
734 |
+
- Accelerate: 1.0.1
|
735 |
+
- Datasets: 3.0.0
|
736 |
+
- Tokenizers: 0.20.1
|
737 |
+
|
738 |
+
## Citation
|
739 |
+
|
740 |
+
### BibTeX
|
741 |
+
|
742 |
+
#### Sentence Transformers
|
743 |
+
```bibtex
|
744 |
+
@inproceedings{reimers-2019-sentence-bert,
|
745 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
746 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
747 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
748 |
+
month = "11",
|
749 |
+
year = "2019",
|
750 |
+
publisher = "Association for Computational Linguistics",
|
751 |
+
url = "https://arxiv.org/abs/1908.10084",
|
752 |
+
}
|
753 |
+
```
|
754 |
+
|
755 |
+
#### MultipleNegativesRankingLoss
|
756 |
+
```bibtex
|
757 |
+
@misc{henderson2017efficient,
|
758 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
759 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
760 |
+
year={2017},
|
761 |
+
eprint={1705.00652},
|
762 |
+
archivePrefix={arXiv},
|
763 |
+
primaryClass={cs.CL}
|
764 |
+
}
|
765 |
+
```
|
766 |
+
|
767 |
+
<!--
|
768 |
+
## Glossary
|
769 |
+
|
770 |
+
*Clearly define terms in order to be accessible across audiences.*
|
771 |
+
-->
|
772 |
+
|
773 |
+
<!--
|
774 |
+
## Model Card Authors
|
775 |
+
|
776 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
777 |
+
-->
|
778 |
+
|
779 |
+
<!--
|
780 |
+
## Model Card Contact
|
781 |
+
|
782 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
783 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "BAAI/bge-m3",
|
3 |
+
"architectures": [
|
4 |
+
"XLMRobertaModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"bos_token_id": 0,
|
8 |
+
"classifier_dropout": null,
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"hidden_act": "gelu",
|
11 |
+
"hidden_dropout_prob": 0.1,
|
12 |
+
"hidden_size": 1024,
|
13 |
+
"initializer_range": 0.02,
|
14 |
+
"intermediate_size": 4096,
|
15 |
+
"layer_norm_eps": 1e-05,
|
16 |
+
"max_position_embeddings": 8194,
|
17 |
+
"model_type": "xlm-roberta",
|
18 |
+
"num_attention_heads": 16,
|
19 |
+
"num_hidden_layers": 24,
|
20 |
+
"output_past": true,
|
21 |
+
"pad_token_id": 1,
|
22 |
+
"position_embedding_type": "absolute",
|
23 |
+
"torch_dtype": "float32",
|
24 |
+
"transformers_version": "4.45.2",
|
25 |
+
"type_vocab_size": 1,
|
26 |
+
"use_cache": true,
|
27 |
+
"vocab_size": 250002
|
28 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.3.1",
|
4 |
+
"transformers": "4.45.2",
|
5 |
+
"pytorch": "2.4.0+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": "cosine"
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:91c4057ada0c4a11f76602ddccdb1ffbdea49dfb635dbf9cd88e46fd4ad6aa26
|
3 |
+
size 2271064456
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 8192,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
sentencepiece.bpe.model
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
|
3 |
+
size 5069051
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:e4f7e21bec3fb0044ca0bb2d50eb5d4d8c596273c422baef84466d2c73748b9c
|
3 |
+
size 17083053
|
tokenizer_config.json
ADDED
@@ -0,0 +1,55 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"mask_token": "<mask>",
|
49 |
+
"model_max_length": 8192,
|
50 |
+
"pad_token": "<pad>",
|
51 |
+
"sep_token": "</s>",
|
52 |
+
"sp_model_kwargs": {},
|
53 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
54 |
+
"unk_token": "<unk>"
|
55 |
+
}
|