Tnt3o5 commited on
Commit
7136d95
1 Parent(s): 5eb62c2

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,585 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: Tnt3o5/gte_legal_v3
3
+ library_name: sentence-transformers
4
+ pipeline_tag: sentence-similarity
5
+ tags:
6
+ - sentence-transformers
7
+ - sentence-similarity
8
+ - feature-extraction
9
+ - generated_from_trainer
10
+ - dataset_size:120952
11
+ - loss:MatryoshkaLoss
12
+ - loss:MultipleNegativesRankingLoss
13
+ widget:
14
+ - source_sentence: Ai có quyền quyết_định phong quân hàm_cấp tướng đối_với Chính_ủy
15
+ Bộ Tư_lệnh Tác_chiến không_gian mạng ?
16
+ sentences:
17
+ - Nghĩa_vụ nộp chi_phí cho người làm_chứng Tòa_án căn_cứ vào Khoản_1 và Khoản 2_Điều
18
+ này quyết_định nghĩa_vụ nộp chi_phí cho người làm_chứng , hoàn_trả lại chi_phí
19
+ cho các bên đương_sự trong bản_án , quyết_định .
20
+ - Thủ_tục cấp mã_số AEP Tổ_chức , cá_nhân có các quyền_lợi quốc_tế đối_với tàu_bay
21
+ mang quốc_tịch Việt_Nam đề_nghị cấp mã_số AEP gửi hồ_sơ trực_tiếp , qua hệ_thống
22
+ bưu_chính hoặc bằng các hình_thức phù_hợp khác đến Cục Hàng_không Việt_Nam và
23
+ phải chịu trách_nhiệm về tính trung_thực , chính_xác của các thông_tin ghi trong
24
+ hồ_sơ .
25
+ - 'Thẩm_quyền quyết_định đối_với sĩ_quan Thẩm_quyền bổ_nhiệm , miễn_nhiệm , cách_chức
26
+ , phong , thăng , giáng , tước quân_hàm đối_với sĩ_quan được quy_định như sau
27
+ : Chủ_tịch_nước bổ_nhiệm , miễn_nhiệm , cách_chức Tổng_Tham_mưu_trưởng , Chủ_nhiệm
28
+ Tổng_Cục_Chính_trị ; phong , thăng , giáng , tước quân_hàm Cấp tướng , Chuẩn Đô_đốc
29
+ , Phó Đô_đốc , Đô_đốc Hải_quân ; Thủ_tướng_Chính_phủ bổ_nhiệm , miễn_nhiệm , cách_chức
30
+ Thứ_trưởng ; Phó_Tổng_Tham_mưu_trưởng , Phó Chủ_nhiệm Tổng_Cục_Chính_trị ; Giám_đốc
31
+ , Chính_ủy Học_viện Quốc_phòng ; Chủ_nhiệm Tổng_cục , Tổng cục_trưởng , Chính_ủy
32
+ Tổng_cục ; Tư_lệnh , Chính_ủy Quân_khu ; Tư_lệnh , Chính_ủy Quân_chủng ; Tư_lệnh
33
+ , Chính_ủy Bộ_đội Biên_phòng ; Tư_lệnh , Chính_ủy Cảnh_sát biển Việt_Nam ; Trưởng_Ban
34
+ Cơ_yếu Chính_phủ và các chức_vụ khác theo quy_định của Cấp có thẩm_quyền ; Bộ_trưởng_Bộ_Quốc_phòng
35
+ bổ_nhiệm , miễn_nhiệm , cách_chức các chức_vụ và phong , thăng , giáng , tước
36
+ các Cấp_bậc quân_hàm còn lại và nâng lương sĩ_quan ; Việc bổ_nhiệm , miễn_nhiệm
37
+ , cách_chức các chức_vụ thuộc ngành Kiểm_sát , Toà_án , Thi_hành án trong quân_đội
38
+ được thực_hiện theo quy_định của pháp_luật . Cấp có thẩm_quyền quyết_định bổ_nhiệm
39
+ đến chức_vụ nào thì có quyền miễn_nhiệm , cách_chức , giáng chức , quyết_định
40
+ kéo_dài thời_hạn phục_vụ tại_ngũ , điều_động , biệt_phái , giao chức_vụ thấp hơn
41
+ , cho thôi phục_vụ tại_ngũ , chuyển ngạch và giải ngạch sĩ_quan dự_bị đến chức_vụ
42
+ đó .'
43
+ - source_sentence: Ai có thẩm_quyền bổ_nhiệm Bộ_trưởng Bộ_Văn_hóa_Thể_thao_và_Du_lịch
44
+ ?
45
+ sentences:
46
+ - 'Thẩm_quyền quyết_định đối_với sĩ_quan Thẩm_quyền bổ_nhiệm , miễn_nhiệm , cách_chức
47
+ , phong , thăng , giáng , tước quân_hàm đối_với sĩ_quan được quy_định như sau
48
+ : Chủ_tịch_nước bổ_nhiệm , miễn_nhiệm , cách_chức Tổng_Tham_mưu_trưởng , Chủ_nhiệm
49
+ Tổng_Cục_Chính_trị ; phong , thăng , giáng , tước quân_hàm Cấp tướng , Chuẩn Đô_đốc
50
+ , Phó Đô_đốc , Đô_đốc Hải_quân ; Thủ_tướng_Chính_phủ bổ_nhiệm , miễn_nhiệm , cách_chức
51
+ Thứ_trưởng ; Phó_Tổng_Tham_mưu_trưởng , Phó Chủ_nhiệm Tổng_Cục_Chính_trị ; Giám_đốc
52
+ , Chính_ủy Học_viện Quốc_phòng ; Chủ_nhiệm Tổng_cục , Tổng cục_trưởng , Chính_ủy
53
+ Tổng_cục ; Tư_lệnh , Chính_ủy Quân_khu ; Tư_lệnh , Chính_ủy Quân_chủng ; Tư_lệnh
54
+ , Chính_ủy Bộ_đội Biên_phòng ; Tư_lệnh , Chính_ủy Cảnh_sát biển Việt_Nam ; Trưởng_Ban
55
+ Cơ_yếu Chính_phủ và các chức_vụ khác theo quy_định của Cấp có thẩm_quyền ; Bộ_trưởng_Bộ_Quốc_phòng
56
+ bổ_nhiệm , miễn_nhiệm , cách_chức các chức_vụ và phong , thăng , giáng , tước
57
+ các Cấp_bậc quân_hàm còn lại và nâng lương sĩ_quan ; Việc bổ_nhiệm , miễn_nhiệm
58
+ , cách_chức các chức_vụ thuộc ngành Kiểm_sát , Toà_án , Thi_hành án trong quân_đội
59
+ được thực_hiện theo quy_định của pháp_luật . Cấp có thẩm_quyền quyết_định bổ_nhiệm
60
+ đến chức_vụ nào thì có quyền miễn_nhiệm , cách_chức , giáng chức , quyết_định
61
+ kéo_dài thời_hạn phục_vụ tại_ngũ , điều_động , biệt_phái , giao chức_vụ thấp hơn
62
+ , cho thôi phục_vụ tại_ngũ , chuyển ngạch và giải ngạch sĩ_quan dự_bị đến chức_vụ
63
+ đó .'
64
+ - “ Vụ Giáo_dục Mầm_non . Vụ Giáo_dục Tiểu_học . Vụ Giáo_dục Trung_học . Vụ Giáo_dục
65
+ Đại_học . Vụ Giáo_dục dân_tộc . Vụ Giáo_dục thường_xuyên . Vụ Giáo_dục Quốc_phòng
66
+ và An_ninh . Vụ Giáo_dục Chính_trị và Công_tác học_sinh , sinh_viên . Vụ Giáo_dục
67
+ thể_chất . Vụ Tổ_chức cán_bộ . Vụ Kế_hoạch - Tài_chính . Vụ Khoa_học , Công_nghệ
68
+ và Môi_trường . Vụ Pháp_chế . Vụ Thi_đua - Khen_thưởng . Văn_phòng . Thanh_tra
69
+ . Cục Quản_lý chất_lượng . Cục Nhà_giáo và Cán_bộ quản_lý giáo_dục . Cục Công_nghệ
70
+ thông_tin . Cục Hợp_tác quốc_tế . Cục Cơ_sở vật_chất . Viện Khoa_học Giáo_dục
71
+ Việt_Nam . Học_viện Quản_lý giáo_dục . Trường Cán_bộ quản_lý giáo_dục thành_phố
72
+ Hồ Chí_Minh . Báo Giáo_dục và Thời_đại . Tạp_chí Giáo_dục . Các đơn_vị quy_định
73
+ từ Khoản_1 đến Khoản 21_Điều này là các đơn_vị giúp Bộ_trưởng thực_hiện chức_năng
74
+ quản_lý nhà_nước ; các đơn_vị quy_định từ Khoản_22 đến Khoản 26_Điều này là các
75
+ đơn_vị sự_nghiệp trực_thuộc phục_vụ chức_năng quản_lý nhà_nước của bộ . Bộ_trưởng
76
+ Bộ_Giáo_dục_và_Đào_tạo trình Thủ_tướng_Chính_phủ ban_hành danh_sách các đơn_vị
77
+ sự_nghiệp công_lập thuộc bộ . Bộ_trưởng Bộ_Giáo_dục_và_Đào_tạo ban_hành quyết_định
78
+ quy_định chức_năng , nhiệm_vụ , quyền_hạn và cơ_cấu tổ_chức của các Vụ , Cục ,
79
+ Thanh_tra , Văn_phòng , đơn_vị sự_nghiệp công_lập và các đơn_vị khác thuộc bộ
80
+ theo quy_định của pháp_luật . Văn_phòng có 06 phòng . Thanh_tra , Cục Quản_lý
81
+ chất_lượng , Cục Hợp_tác quốc_tế có 04 phòng . Cục Công_nghệ thông_tin , Cục Nhà_giáo
82
+ và Cán_bộ quản_lý giáo_dục , Cục Cơ_sở vật_chất có 03 phòng . "
83
+ - 'Điều Chủ_tịch_nước có những nhiệm_vụ và quyền_hạn sau đây : Đề_nghị Quốc_hội
84
+ bầu , miễn_nhiệm , bãi_nhiệm Phó_Chủ_tịch_nước , Thủ_tướng_Chính_phủ ; căn_cứ
85
+ vào nghị_quyết của Quốc_hội , bổ_nhiệm , miễn_nhiệm , cách_chức Phó_thủ_tướng
86
+ Chính_phủ , Bộ_trưởng và thành_viên khác của Chính_phủ ;'
87
+ - source_sentence: Ai có quyền trở_thành người đại_diện theo pháp_luật của công_ty
88
+ cổ_phần do tổ_chức làm chủ sở_hữu ?
89
+ sentences:
90
+ - '“ Điều Cơ_cấu tổ_chức quản_lý công_ty cổ_phần Trừ trường_hợp pháp_luật về chứng_khoán
91
+ có quy_định khác , công_ty cổ_phần có quyền lựa_chọn tổ_chức quản_lý và hoạt_động
92
+ theo một trong hai mô_hình sau đây : Đại hội_đồng cổ_đông , Hội_đồng_quản_trị
93
+ , Ban kiểm_soát và Giám_đốc hoặc Tổng giám_đốc . Trường_hợp công_ty cổ_phần có
94
+ dưới 11 cổ_đông và các cổ_đông là tổ_chức sở_hữu dưới 50 % tổng_số cổ_phần của
95
+ công_ty thì không bắt_buộc phải có Ban kiểm_soát ; Đại hội_đồng cổ_đông , Hội_đồng_quản_trị
96
+ và Giám_đốc hoặc Tổng giám_đốc . Trường_hợp này ít_nhất 20 % số thành_viên Hội_đồng_quản_trị
97
+ phải là thành_viên độc_lập và có Ủy_ban kiểm_toán trực_thuộc Hội_đồng_quản_trị
98
+ . Cơ_cấu tổ_chức , chức_năng , nhiệm_vụ của Ủy_ban kiểm_toán quy_định tại Điều_lệ
99
+ công_ty hoặc quy_chế_hoạt_động của Ủy_ban kiểm_toán do Hội_đồng_quản_trị ban_hành
100
+ . Trường_hợp công_ty chỉ có một người đại_diện theo pháp_luật thì Chủ_tịch Hội_đồng_quản_trị
101
+ hoặc Giám_đốc hoặc Tổng giám_đốc là người đại_diện theo pháp_luật của công_ty
102
+ . Trường_hợp Điều_lệ chưa có quy_định thì Chủ_tịch Hội_đồng_quản_trị là người
103
+ đại_diện theo pháp_luật của công_ty . Trường_hợp công_ty có hơn một người đại_diện
104
+ theo pháp_luật thì Chủ_tịch Hội_đồng_quản_trị và Giám_đốc hoặc Tổng giám_đốc đương_nhiên
105
+ là người đại_diện theo pháp_luật của công_ty . ”'
106
+ - '" Điều Nhiệm_vụ , quyền_hạn của Hội_đồng nhân_dân xã Lấy phiếu tín_nhiệm , bỏ_phiếu
107
+ tín_nhiệm đối_với người giữ chức_vụ do Hội_đồng nhân_dân xã bầu theo quy_định
108
+ tại Điều_88 và Điều_89 của Luật này . Bãi_nhiệm đại_biểu Hội_đồng nhân_dân xã
109
+ và chấp_nhận việc đại_biểu Hội_đồng nhân_dân xã xin thôi làm nhiệm_vụ đại_biểu
110
+ . Bãi_bỏ một phần hoặc toàn_bộ văn_bản trái pháp_luật của Ủy_ban_nhân_dân , Chủ_tịch
111
+ Ủy_ban_nhân_dân xã . "'
112
+ - Thẩm_quyền yêu_cầu cung_cấp thông_tin Thủ_trưởng cơ_quan thi_hành_án dân_sự ,
113
+ Chấp_hành viên có quyền yêu_cầu cơ_quan , tổ_chức đang quản_lý_tài_khoản của người
114
+ phải thi_hành_án ; cơ_quan , tổ_chức , người sử_dụng lao_động , Bảo_hiểm xã_hội
115
+ nơi người phải thi_hành_án nhận tiền_lương , tiền công , tiền_lương hưu , tiền
116
+ trợ_cấp và các thu_nhập hợp_pháp khác cung_cấp thông_tin về tài_khoản , thu_nhập
117
+ của người phải thi_hành_án để thực_hiện việc thi_hành_án dân_sự .
118
+ - source_sentence: 13 hành_vi bị nghiêm_cấm về cư_trú là gì ?
119
+ sentences:
120
+ - Phê_duyệt phương_thức vận_hành hệ_thống điện Phương_thức vận_hành hệ_thống điện
121
+ phân_phối ( bao_gồm hệ_thống điện phân_phối thuộc quyền điều_khiển của Cấp điều_độ
122
+ phân_phối tỉnh và Cấp điều_độ phân_phối quận , huyệ Phương_thức vận_hành hệ_thống
123
+ điện phân_phối năm do Cấp điều_độ phân_phối tỉnh lập trên cơ_sở phương_thức vận_hành
124
+ hệ_thống điện miền năm đã được duyệt , trình Tổng công_ty Điện_lực hoặc Công_ty
125
+ Điện_lực tỉnh phê_duyệt ; Phương_thức vận_hành hệ_thống điện phân_phối tháng ,
126
+ tuần và các phương_thức đặc_biệt do Cấp điều_độ phân_phối tỉnh lập trên cơ_sở
127
+ phương_thức vận_hành hệ_thống điện miền tháng , tuần và các phương_thức đặc_biệt
128
+ đã được duyệt , trình Tổng công_ty Điện_lực hoặc Công_ty Điện_lực tỉnh phê_duyệt
129
+ ; Phương_thức vận_hành hệ_thống điện phân_phối ngày do Cấp điều_độ phân_phối tỉnh
130
+ lập và phê_duyệt trên cơ_sở phương_thức vận_hành hệ_thống điện phân_phối tuần
131
+ đã được duyệt .
132
+ - Thẩm_quyền công_nhận , kỳ công_nhận báo cáo_viên pháp_luật Báo cáo_viên pháp_luật
133
+ cấp trung_ương là người đang công_tác trong Quân_đội do Bộ_trưởng Bộ_Tư_pháp công_nhận
134
+ theo đề_nghị của Bộ_trưởng_Bộ_Quốc_phòng . Báo cáo_viên pháp_luật cấp trực_thuộc
135
+ Bộ Quốc_phòng do Bộ_trưởng_Bộ_Quốc_phòng công_nhận . Báo cáo_viên pháp_luật cấp
136
+ đơn_vị do thủ_trưởng cơ_quan , đơn_vị cấp trên trực_tiếp công_nhận . Công_nhận
137
+ báo cáo_viên pháp_luật được thực_hiện vào tháng 6 và tháng 12 hàng năm .
138
+ - '" Điều Các hành_vi bị nghiêm_cấm về cư_trú Cản_trở công_dân thực_hiện quyền tự_do
139
+ cư_trú . Lạm_dụng việc sử_dụng thông_tin về nơi thường_trú , nơi tạm_trú làm điều_kiện
140
+ để hạn_chế quyền , lợi_ích hợp_pháp của công_dân . Đưa , môi_giới , nhận hối_lộ
141
+ trong việc đăng_ký , quản_lý cư_trú . Không tiếp_nhận , trì_hoãn việc tiếp_nhận
142
+ hồ_sơ , giấy_tờ , tài_liệu , thông_tin đăng_ký cư_trú hoặc có hành_vi nhũng_nhiễu
143
+ khác ; không thực_hiện , thực_hiện không đúng thời_hạn đăng_ký cư_trú cho công_dân
144
+ khi hồ_sơ đủ điều_kiện đăng_ký cư_trú ; xóa đăng_ký thường_trú , đăng_ký tạm_trú
145
+ trái với quy_định của pháp_luật . Thu , quản_lý , sử_dụng lệ_phí đăng_ký cư_trú
146
+ trái với quy_định của pháp_luật . Tự đặt ra thời_hạn , thủ_tục , giấy_tờ , tài_liệu
147
+ , biểu_mẫu trái với quy_định của pháp_luật hoặc làm sai_lệch thông_tin , sổ_sách
148
+ , hồ_sơ về cư_trú . Cố_ý cấp hoặc từ_chối cấp giấy_tờ , tài_liệu về cư_trú trái
149
+ với quy_định của pháp_luật . Lợi_dụng việc thực_hiện quyền tự_do cư_trú để xâm_phạm
150
+ lợi_ích của Nhà_nước , quyền , lợi_ích hợp_pháp của tổ_chức , cá_nhân . Làm giả
151
+ giấy_tờ , tài_liệu , dữ_liệu về cư_trú ; sử_dụng giấy_tờ , tài_liệu , dữ_liệu
152
+ giả về cư_trú ; cung_cấp thông_tin , giấy_tờ , tài_liệu sai sự_thật về cư_trú
153
+ ; khai man điều_kiện , giả_mạo hồ_sơ , giấy_tờ , tài_liệu để được đăng_ký thường_trú
154
+ , đăng_ký tạm_trú ; mua , bán , Thuê , cho Thuê , mượn , cho mượn , cầm_cố , nhận
155
+ cầm_cố , hủy_hoại giấy_tờ , tài_liệu về cư_trú . Tổ_chức , kích_động , xúi_giục
156
+ , lôi_kéo , dụ_dỗ , giúp_sức , cưỡng_bức ngư���i khác vi_phạm_pháp_luật về cư_trú
157
+ . Giải_quyết cho đăng_ký thường_trú , đăng_ký tạm_trú khi biết rõ người đăng_ký
158
+ thường_trú , đăng_ký tạm_trú không sinh_sống tại_chỗ ở đó . Đồng_ý cho người khác
159
+ đăng_ký thường_trú , đăng_ký tạm_trú vào chỗ ở của mình để vụ_lợi hoặc trong thực_tế
160
+ người đăng_ký thường_trú , đăng_ký tạm_trú không sinh_sống tại_chỗ ở đó . Truy_nhập
161
+ , khai_thác , hủy_hoại , làm cản_trở , gián_đoạn hoạt_động , thay_đổi , xóa ,
162
+ phát_tán , cung_cấp trái_phép thông_tin trong Cơ_sở dữ_liệu về cư_trú .'
163
+ - source_sentence: Ai có thẩm quyền_hủy tài_liệu lưu_trữ hết giá_trị của Viện kiểm_sát_nhân_dân
164
+ tối_cao ?
165
+ sentences:
166
+ - 'Thẩm quyền_hủy tài_liệu hết giá_trị của Viện kiểm_sát_nhân_dân các cấp_Lãnh đạo
167
+ Viện kiểm_sát_nhân_dân tối_cao : Quyết_định hủy hồ_sơ , tài_liệu quản_lý nhà_nước
168
+ tại kho lưu_trữ cơ_quan Viện kiểm_sát_nhân_dân tối_cao sau khi có văn_bản thẩm_định
169
+ của Cục Văn_thư và Lưu_trữ Nhà_nước . Cơ_quan điều_tra Viện kiểm_sát_nhân_dân
170
+ tối_cao , Tạp_chí Kiểm_sát , Báo Bảo_vệ pháp_luật , Trường Đại_học Kiểm_sát Hà_Nội
171
+ , Trường Đào_tạo , Bồi_dưỡng nghiệp_vụ kiểm_sát tại Thành_phố Hồ Chí_Minh , Viện
172
+ kiểm_sát_nhân_dân cấp cao : Quyết_định việc hủy hồ_sơ , tài_liệu quản_lý nhà_nước
173
+ sau khi có văn_bản thẩm_định của Cục Văn_thư và Lưu_trữ Nhà_nước . Viện kiểm_sát_nhân_dân
174
+ cấp tỉnh , huyện : Quyết_định việc hủy hồ_sơ , tài_liệu quản_lý nhà_nước sau khi
175
+ có văn_bản thẩm_định của cơ_quan quản_lý nhà_nước về lưu_trữ của tỉnh , thành_phố
176
+ .'
177
+ - “ Điều Bồi_thường thiệt_hại do cây_cối gây ra Chủ sở_hữu , người chiếm_hữu , người
178
+ được giao quản_lý phải bồi_thường thiệt_hại do cây_cối gây ra . ”
179
+ - 'Chủ_tịch Hội_đồng thành_viên Chủ_tịch Hội_đồng thành_viên là người đại_diện theo
180
+ pháp_luật của Quỹ . Chủ_tịch Hội_đồng thành_viên có quyền và nghĩa_vụ sau đây
181
+ : Thay_mặt Hội_đồng thành_viên ký nhận vốn , các nguồn_lực khác do Nhà_nước và
182
+ các tổ_chức có liên_quan giao cho Quỹ . Thay_mặt Hội_đồng thành_viên ký các văn_bản
183
+ thuộc thẩm_quyền của Hội_đồng thành_viên . Triệu_tập và chủ_trì cuộc họp Hội_đồng
184
+ thành_viên hoặc lấy ý_kiến các thành_viên Hội_đồng thành_viên . Phê_duyệt kế_hoạch
185
+ hoạt_động hằng quý và hằng năm của Hội_đồng thành_viên . Phân_công nhiệm_vụ cho
186
+ các thành_viên Hội_đồng thành_viên để thực_hiện nhiệm_vụ , quyền_hạn của Hội_đồng
187
+ thành_viên . Tổ_chức thực_hiện các nhiệm_vụ của Hội_đồng thành_viên , theo_dõi
188
+ và giám_sát việc thực_hiện các nghị_quyết , quyết_định của Bộ_Kế_hoạch_và_Đầu_tư
189
+ và của Hội_đồng thành_viên . Tổ_chức giám_sát , trực_tiếp giám_sát và đánh_giá
190
+ kết_quả_thực_hiện mục_tiêu chiến_lược , kế_hoạch hoạt_động , kết_quả hoạt_động
191
+ của Quỹ , kết_quả quản_lý điều_hành của Giám_đốc . Trường_hợp cần_thiết , Chủ_tịch
192
+ Hội_đồng thành_viên ủy_quyền bằng văn_bản cho một trong số các thành_viên Hội_đồng
193
+ thành_viên hoặc ủy_quyền cho Giám_đốc thực_hiện chức_năng , nhiệm_vụ của mình
194
+ . Người được ủy_quyền chịu trách_nhiệm trước Chủ_tịch Hội_đồng thành_viên về các
195
+ công_việc được ủy_quyền . Thực_hiện quyền và nghĩa_vụ khác theo yêu_cầu của Bộ_Kế_hoạch_và_Đầu_tư
196
+ .'
197
+ ---
198
+
199
+ # SentenceTransformer based on Tnt3o5/gte_legal_v3
200
+
201
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Tnt3o5/gte_legal_v3](https://huggingface.co/Tnt3o5/gte_legal_v3). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
202
+
203
+ ## Model Details
204
+
205
+ ### Model Description
206
+ - **Model Type:** Sentence Transformer
207
+ - **Base model:** [Tnt3o5/gte_legal_v3](https://huggingface.co/Tnt3o5/gte_legal_v3) <!-- at revision e18916219e6ff436c4c4f42bbe7af1c8fa7e7ae7 -->
208
+ - **Maximum Sequence Length:** 8192 tokens
209
+ - **Output Dimensionality:** 768 dimensions
210
+ - **Similarity Function:** Cosine Similarity
211
+ <!-- - **Training Dataset:** Unknown -->
212
+ <!-- - **Language:** Unknown -->
213
+ <!-- - **License:** Unknown -->
214
+
215
+ ### Model Sources
216
+
217
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
218
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
219
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
220
+
221
+ ### Full Model Architecture
222
+
223
+ ```
224
+ SentenceTransformer(
225
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
226
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
227
+ )
228
+ ```
229
+
230
+ ## Usage
231
+
232
+ ### Direct Usage (Sentence Transformers)
233
+
234
+ First install the Sentence Transformers library:
235
+
236
+ ```bash
237
+ pip install -U sentence-transformers
238
+ ```
239
+
240
+ Then you can load this model and run inference.
241
+ ```python
242
+ from sentence_transformers import SentenceTransformer
243
+
244
+ # Download from the 🤗 Hub
245
+ model = SentenceTransformer("Tnt3o5/gte-legal-v5")
246
+ # Run inference
247
+ sentences = [
248
+ 'Ai có thẩm quyền_hủy tài_liệu lưu_trữ hết giá_trị của Viện kiểm_sát_nhân_dân tối_cao ?',
249
+ 'Thẩm quyền_hủy tài_liệu hết giá_trị của Viện kiểm_sát_nhân_dân các cấp_Lãnh đạo Viện kiểm_sát_nhân_dân tối_cao : Quyết_định hủy hồ_sơ , tài_liệu quản_lý nhà_nước tại kho lưu_trữ cơ_quan Viện kiểm_sát_nhân_dân tối_cao sau khi có văn_bản thẩm_định của Cục Văn_thư và Lưu_trữ Nhà_nước . Cơ_quan điều_tra Viện kiểm_sát_nhân_dân tối_cao , Tạp_chí Kiểm_sát , Báo Bảo_vệ pháp_luật , Trường Đại_học Kiểm_sát Hà_Nội , Trường Đào_tạo , Bồi_dưỡng nghiệp_vụ kiểm_sát tại Thành_phố Hồ Chí_Minh , Viện kiểm_sát_nhân_dân cấp cao : Quyết_định việc hủy hồ_sơ , tài_liệu quản_lý nhà_nước sau khi có văn_bản thẩm_định của Cục Văn_thư và Lưu_trữ Nhà_nước . Viện kiểm_sát_nhân_dân cấp tỉnh , huyện : Quyết_định việc hủy hồ_sơ , tài_liệu quản_lý nhà_nước sau khi có văn_bản thẩm_định của cơ_quan quản_lý nhà_nước về lưu_trữ của tỉnh , thành_phố .',
250
+ '“ Điều Bồi_thường thiệt_hại do cây_cối gây ra Chủ sở_hữu , người chiếm_hữu , người được giao quản_lý phải bồi_thường thiệt_hại do cây_cối gây ra . ”',
251
+ ]
252
+ embeddings = model.encode(sentences)
253
+ print(embeddings.shape)
254
+ # [3, 768]
255
+
256
+ # Get the similarity scores for the embeddings
257
+ similarities = model.similarity(embeddings, embeddings)
258
+ print(similarities.shape)
259
+ # [3, 3]
260
+ ```
261
+
262
+ <!--
263
+ ### Direct Usage (Transformers)
264
+
265
+ <details><summary>Click to see the direct usage in Transformers</summary>
266
+
267
+ </details>
268
+ -->
269
+
270
+ <!--
271
+ ### Downstream Usage (Sentence Transformers)
272
+
273
+ You can finetune this model on your own dataset.
274
+
275
+ <details><summary>Click to expand</summary>
276
+
277
+ </details>
278
+ -->
279
+
280
+ <!--
281
+ ### Out-of-Scope Use
282
+
283
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
284
+ -->
285
+
286
+ <!--
287
+ ## Bias, Risks and Limitations
288
+
289
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
290
+ -->
291
+
292
+ <!--
293
+ ### Recommendations
294
+
295
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
296
+ -->
297
+
298
+ ## Training Details
299
+
300
+ ### Training Dataset
301
+
302
+ #### Unnamed Dataset
303
+
304
+
305
+ * Size: 120,952 training samples
306
+ * Columns: <code>anchor</code> and <code>positive</code>
307
+ * Approximate statistics based on the first 1000 samples:
308
+ | | anchor | positive |
309
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
310
+ | type | string | string |
311
+ | details | <ul><li>min: 7 tokens</li><li>mean: 21.41 tokens</li><li>max: 50 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 216.87 tokens</li><li>max: 718 tokens</li></ul> |
312
+ * Samples:
313
+ | anchor | positive |
314
+ |:---------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
315
+ | <code>" Giải_thưởng Nguyễn Đức_Cảnh " và " Giải_thưởng Nguyễn Văn_Linh " theo quy_định là giải_thưởng như thế_nào ?</code> | <code>Giải_thưởng “ Giải_thưởng Nguyễn Đức_Cảnh ” của Tổng Liên_đoàn : “ Giải_thưởng Nguyễn Đức_Cảnh ” phần_thưởng cao_quý của Tổng Liên_đoàn Lao_động Việt_Nam được xét , trao tặng_cho công_nhân , lao_động trực_tiếp sản_xuất tại các doanh_nghiệp thuộc các thành_phần kinh_tế có thành_tích xuất_sắc tiêu_biểu nhất trong lao_động_sản_xuất ; có nhiều sáng_kiến cải_tiến kỹ_thuật ; tích_cực đào_tạo , kèm_cặp , bồi_dưỡng , giúp_đỡ đồng_nghiệp nâng_cao trình_độ tay_nghề , chuyên_môn nghiệp_vụ góp_phần xây_dựng doanh_nghiệp , đơn_vị phát_triển bền_vững , xây_dựng giai_cấp công_nhân và tổ_chức Công_đoàn vững_mạnh . “ Giải_thưởng Nguyễn Đức_Cảnh ” được tổ_chức trao_tặng 5 năm 1 lần vào dịp “ Tháng Công_nhân ” của năm tổ_chức Đại_hội Công_đoàn Việt_Nam . Một cá_nhân chỉ được trao_tặng Giải_thưởng 01 lần . Năm tổ_chức trao_tặng “ Giải_thưởng Nguyễn Đức_Cảnh ” , Đoàn Chủ_tịch Tổng Liên_đoàn ban_hành hướng_dẫn riêng về xét , trao_tặng “ Giải_thưởng Nguyễn Đức_Cảnh ” . “ Giải_thưởng Nguyễn Văn_Linh ” của Tổn...</code> |
316
+ | <code>" Người_lớn ( trên 16 tuổi ) " được hiểu là “ Người_lớn và trẻ_em trên 16 tuổi ”</code> | <code>" Khi triển_khai “ Hướng_dẫn quản_lý tại nhà đối_với người mắc COVID - 19 ” , đề_nghị hướng_dẫn , làm rõ một_số nội_dung như sau : . Mục 3 “ Người_lớn ( trên 16 tuổ ” : đề_nghị hướng_dẫn là “ Người_lớn và trẻ_em trên 16 tuổi ” . "</code> |
317
+ | <code>03 Quy_chuẩn kỹ_thuật quốc_gia được ban_hành tại Thông_tư 04 là Quy_chuẩn nào ?</code> | <code>Ban_hành kèm theo Thông_tư này 03 Quy_chuẩn kỹ_thuật quốc_gia sau : Quy_chuẩn kỹ_thuật quốc_gia về bộ trục bánh_xe của đầu_máy , toa_xe Số_hiệu : QCVN 110 : 2023/BGTVT. Quy_chuẩn kỹ_thuật quốc_gia về bộ móc_nối , đỡ đấm của đầu_máy , toa_xe Số_hiệu : QCVN 111 : 2023/BGTVT. Quy_chuẩn kỹ_thuật quốc_gia về van hãm sử_dụng trên đầu_máy , toa_xe Số_hiệu : QCVN 112 : 2023/BGTVT.</code> |
318
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
319
+ ```json
320
+ {
321
+ "loss": "MultipleNegativesRankingLoss",
322
+ "matryoshka_dims": [
323
+ 768,
324
+ 512,
325
+ 256
326
+ ],
327
+ "matryoshka_weights": [
328
+ 1,
329
+ 1,
330
+ 1
331
+ ],
332
+ "n_dims_per_step": -1
333
+ }
334
+ ```
335
+
336
+ ### Evaluation Dataset
337
+
338
+ #### Unnamed Dataset
339
+
340
+
341
+ * Size: 5,109 evaluation samples
342
+ * Columns: <code>anchor</code> and <code>positive</code>
343
+ * Approximate statistics based on the first 1000 samples:
344
+ | | anchor | positive |
345
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
346
+ | type | string | string |
347
+ | details | <ul><li>min: 7 tokens</li><li>mean: 21.41 tokens</li><li>max: 50 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 216.87 tokens</li><li>max: 718 tokens</li></ul> |
348
+ * Samples:
349
+ | anchor | positive |
350
+ |:---------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
351
+ | <code>" Giải_thưởng Nguyễn Đức_Cảnh " và " Giải_thưởng Nguyễn Văn_Linh " theo quy_định là giải_thưởng như thế_nào ?</code> | <code>Giải_thưởng “ Giải_thưởng Nguyễn Đức_Cảnh ” của Tổng Liên_đoàn : “ Giải_thưởng Nguyễn Đức_Cảnh ” phần_thưởng cao_quý của Tổng Liên_đoàn Lao_động Việt_Nam được xét , trao tặng_cho công_nhân , lao_động trực_tiếp sản_xuất tại các doanh_nghiệp thuộc các thành_phần kinh_tế có thành_tích xuất_sắc tiêu_biểu nhất trong lao_động_sản_xuất ; có nhiều sáng_kiến cải_tiến kỹ_thuật ; tích_cực đào_tạo , kèm_cặp , bồi_dưỡng , giúp_đỡ đồng_nghiệp nâng_cao trình_độ tay_nghề , chuyên_môn nghiệp_vụ góp_phần xây_dựng doanh_nghiệp , đơn_vị phát_triển bền_vững , xây_dựng giai_cấp công_nhân và tổ_chức Công_đoàn vững_mạnh . “ Giải_thưởng Nguyễn Đức_Cảnh ” được tổ_chức trao_tặng 5 năm 1 lần vào dịp “ Tháng Công_nhân ” của năm tổ_chức Đại_hội Công_đoàn Việt_Nam . Một cá_nhân chỉ được trao_tặng Giải_thưởng 01 lần . Năm tổ_chức trao_tặng “ Giải_thưởng Nguyễn Đức_Cảnh ” , Đoàn Chủ_tịch Tổng Liên_đoàn ban_hành hướng_dẫn riêng về xét , trao_tặng “ Giải_thưởng Nguyễn Đức_Cảnh ” . “ Giải_thưởng Nguyễn Văn_Linh ” của Tổn...</code> |
352
+ | <code>" Người_lớn ( trên 16 tuổi ) " được hiểu là “ Người_lớn và trẻ_em trên 16 tuổi ”</code> | <code>" Khi triển_khai “ Hướng_dẫn quản_lý tại nhà đối_với người mắc COVID - 19 ” , đề_nghị hướng_dẫn , làm rõ một_số nội_dung như sau : . Mục 3 “ Người_lớn ( trên 16 tuổ ” : đề_nghị hướng_dẫn là “ Người_lớn và trẻ_em trên 16 tuổi ” . "</code> |
353
+ | <code>03 Quy_chuẩn kỹ_thuật quốc_gia được ban_hành tại Thông_tư 04 là Quy_chuẩn nào ?</code> | <code>Ban_hành kèm theo Thông_tư này 03 Quy_chuẩn kỹ_thuật quốc_gia sau : Quy_chuẩn kỹ_thuật quốc_gia về bộ trục bánh_xe của đầu_máy , toa_xe Số_hiệu : QCVN 110 : 2023/BGTVT. Quy_chuẩn kỹ_thuật quốc_gia về bộ móc_nối , đỡ đấm của đầu_máy , toa_xe Số_hiệu : QCVN 111 : 2023/BGTVT. Quy_chuẩn kỹ_thuật quốc_gia về van hãm sử_dụng trên đầu_máy , toa_xe Số_hiệu : QCVN 112 : 2023/BGTVT.</code> |
354
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
355
+ ```json
356
+ {
357
+ "loss": "MultipleNegativesRankingLoss",
358
+ "matryoshka_dims": [
359
+ 768,
360
+ 512,
361
+ 256
362
+ ],
363
+ "matryoshka_weights": [
364
+ 1,
365
+ 1,
366
+ 1
367
+ ],
368
+ "n_dims_per_step": -1
369
+ }
370
+ ```
371
+
372
+ ### Training Hyperparameters
373
+ #### Non-Default Hyperparameters
374
+
375
+ - `per_device_train_batch_size`: 16
376
+ - `gradient_accumulation_steps`: 8
377
+ - `learning_rate`: 1e-05
378
+ - `weight_decay`: 0.01
379
+ - `max_grad_norm`: 0.2
380
+ - `num_train_epochs`: 5
381
+ - `lr_scheduler_type`: cosine
382
+ - `warmup_ratio`: 0.1
383
+ - `fp16`: True
384
+ - `load_best_model_at_end`: True
385
+ - `optim`: adamw_torch_fused
386
+ - `gradient_checkpointing`: True
387
+ - `batch_sampler`: no_duplicates
388
+
389
+ #### All Hyperparameters
390
+ <details><summary>Click to expand</summary>
391
+
392
+ - `overwrite_output_dir`: False
393
+ - `do_predict`: False
394
+ - `eval_strategy`: no
395
+ - `prediction_loss_only`: True
396
+ - `per_device_train_batch_size`: 16
397
+ - `per_device_eval_batch_size`: 8
398
+ - `per_gpu_train_batch_size`: None
399
+ - `per_gpu_eval_batch_size`: None
400
+ - `gradient_accumulation_steps`: 8
401
+ - `eval_accumulation_steps`: None
402
+ - `torch_empty_cache_steps`: None
403
+ - `learning_rate`: 1e-05
404
+ - `weight_decay`: 0.01
405
+ - `adam_beta1`: 0.9
406
+ - `adam_beta2`: 0.999
407
+ - `adam_epsilon`: 1e-08
408
+ - `max_grad_norm`: 0.2
409
+ - `num_train_epochs`: 5
410
+ - `max_steps`: -1
411
+ - `lr_scheduler_type`: cosine
412
+ - `lr_scheduler_kwargs`: {}
413
+ - `warmup_ratio`: 0.1
414
+ - `warmup_steps`: 0
415
+ - `log_level`: passive
416
+ - `log_level_replica`: warning
417
+ - `log_on_each_node`: True
418
+ - `logging_nan_inf_filter`: True
419
+ - `save_safetensors`: True
420
+ - `save_on_each_node`: False
421
+ - `save_only_model`: False
422
+ - `restore_callback_states_from_checkpoint`: False
423
+ - `no_cuda`: False
424
+ - `use_cpu`: False
425
+ - `use_mps_device`: False
426
+ - `seed`: 42
427
+ - `data_seed`: None
428
+ - `jit_mode_eval`: False
429
+ - `use_ipex`: False
430
+ - `bf16`: False
431
+ - `fp16`: True
432
+ - `fp16_opt_level`: O1
433
+ - `half_precision_backend`: auto
434
+ - `bf16_full_eval`: False
435
+ - `fp16_full_eval`: False
436
+ - `tf32`: None
437
+ - `local_rank`: 0
438
+ - `ddp_backend`: None
439
+ - `tpu_num_cores`: None
440
+ - `tpu_metrics_debug`: False
441
+ - `debug`: []
442
+ - `dataloader_drop_last`: False
443
+ - `dataloader_num_workers`: 0
444
+ - `dataloader_prefetch_factor`: None
445
+ - `past_index`: -1
446
+ - `disable_tqdm`: False
447
+ - `remove_unused_columns`: True
448
+ - `label_names`: None
449
+ - `load_best_model_at_end`: True
450
+ - `ignore_data_skip`: False
451
+ - `fsdp`: []
452
+ - `fsdp_min_num_params`: 0
453
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
454
+ - `fsdp_transformer_layer_cls_to_wrap`: None
455
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
456
+ - `deepspeed`: None
457
+ - `label_smoothing_factor`: 0.0
458
+ - `optim`: adamw_torch_fused
459
+ - `optim_args`: None
460
+ - `adafactor`: False
461
+ - `group_by_length`: False
462
+ - `length_column_name`: length
463
+ - `ddp_find_unused_parameters`: None
464
+ - `ddp_bucket_cap_mb`: None
465
+ - `ddp_broadcast_buffers`: False
466
+ - `dataloader_pin_memory`: True
467
+ - `dataloader_persistent_workers`: False
468
+ - `skip_memory_metrics`: True
469
+ - `use_legacy_prediction_loop`: False
470
+ - `push_to_hub`: False
471
+ - `resume_from_checkpoint`: None
472
+ - `hub_model_id`: None
473
+ - `hub_strategy`: every_save
474
+ - `hub_private_repo`: False
475
+ - `hub_always_push`: False
476
+ - `gradient_checkpointing`: True
477
+ - `gradient_checkpointing_kwargs`: None
478
+ - `include_inputs_for_metrics`: False
479
+ - `eval_do_concat_batches`: True
480
+ - `fp16_backend`: auto
481
+ - `push_to_hub_model_id`: None
482
+ - `push_to_hub_organization`: None
483
+ - `mp_parameters`:
484
+ - `auto_find_batch_size`: False
485
+ - `full_determinism`: False
486
+ - `torchdynamo`: None
487
+ - `ray_scope`: last
488
+ - `ddp_timeout`: 1800
489
+ - `torch_compile`: False
490
+ - `torch_compile_backend`: None
491
+ - `torch_compile_mode`: None
492
+ - `dispatch_batches`: None
493
+ - `split_batches`: None
494
+ - `include_tokens_per_second`: False
495
+ - `include_num_input_tokens_seen`: False
496
+ - `neftune_noise_alpha`: None
497
+ - `optim_target_modules`: None
498
+ - `batch_eval_metrics`: False
499
+ - `eval_on_start`: False
500
+ - `use_liger_kernel`: False
501
+ - `eval_use_gather_object`: False
502
+ - `prompts`: None
503
+ - `batch_sampler`: no_duplicates
504
+ - `multi_dataset_batch_sampler`: proportional
505
+
506
+ </details>
507
+
508
+ ### Training Logs
509
+ | Epoch | Step | Training Loss |
510
+ |:------:|:----:|:-------------:|
511
+ | 0.5291 | 500 | 1.2711 |
512
+ | 1.0578 | 1000 | 1.0203 |
513
+ | 1.5869 | 1500 | 1.0266 |
514
+ | 2.1156 | 2000 | 0.8704 |
515
+ | 2.6447 | 2500 | 0.8485 |
516
+ | 3.1734 | 3000 | 0.7169 |
517
+
518
+
519
+ ### Framework Versions
520
+ - Python: 3.10.14
521
+ - Sentence Transformers: 3.3.0
522
+ - Transformers: 4.45.1
523
+ - PyTorch: 2.4.0
524
+ - Accelerate: 0.34.2
525
+ - Datasets: 3.0.1
526
+ - Tokenizers: 0.20.0
527
+
528
+ ## Citation
529
+
530
+ ### BibTeX
531
+
532
+ #### Sentence Transformers
533
+ ```bibtex
534
+ @inproceedings{reimers-2019-sentence-bert,
535
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
536
+ author = "Reimers, Nils and Gurevych, Iryna",
537
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
538
+ month = "11",
539
+ year = "2019",
540
+ publisher = "Association for Computational Linguistics",
541
+ url = "https://arxiv.org/abs/1908.10084",
542
+ }
543
+ ```
544
+
545
+ #### MatryoshkaLoss
546
+ ```bibtex
547
+ @misc{kusupati2024matryoshka,
548
+ title={Matryoshka Representation Learning},
549
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
550
+ year={2024},
551
+ eprint={2205.13147},
552
+ archivePrefix={arXiv},
553
+ primaryClass={cs.LG}
554
+ }
555
+ ```
556
+
557
+ #### MultipleNegativesRankingLoss
558
+ ```bibtex
559
+ @misc{henderson2017efficient,
560
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
561
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
562
+ year={2017},
563
+ eprint={1705.00652},
564
+ archivePrefix={arXiv},
565
+ primaryClass={cs.CL}
566
+ }
567
+ ```
568
+
569
+ <!--
570
+ ## Glossary
571
+
572
+ *Clearly define terms in order to be accessible across audiences.*
573
+ -->
574
+
575
+ <!--
576
+ ## Model Card Authors
577
+
578
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
579
+ -->
580
+
581
+ <!--
582
+ ## Model Card Contact
583
+
584
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
585
+ -->
config.json ADDED
@@ -0,0 +1,50 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "./checkpoint-3000",
3
+ "architectures": [
4
+ "NewModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.0,
7
+ "auto_map": {
8
+ "AutoConfig": "configuration.NewConfig",
9
+ "AutoModel": "Alibaba-NLP/new-impl--modeling.NewModel",
10
+ "AutoModelForMaskedLM": "Alibaba-NLP/new-impl--modeling.NewForMaskedLM",
11
+ "AutoModelForMultipleChoice": "Alibaba-NLP/new-impl--modeling.NewForMultipleChoice",
12
+ "AutoModelForQuestionAnswering": "Alibaba-NLP/new-impl--modeling.NewForQuestionAnswering",
13
+ "AutoModelForSequenceClassification": "Alibaba-NLP/new-impl--modeling.NewForSequenceClassification",
14
+ "AutoModelForTokenClassification": "Alibaba-NLP/new-impl--modeling.NewForTokenClassification"
15
+ },
16
+ "classifier_dropout": 0.0,
17
+ "hidden_act": "gelu",
18
+ "hidden_dropout_prob": 0.1,
19
+ "hidden_size": 768,
20
+ "id2label": {
21
+ "0": "LABEL_0"
22
+ },
23
+ "initializer_range": 0.02,
24
+ "intermediate_size": 3072,
25
+ "label2id": {
26
+ "LABEL_0": 0
27
+ },
28
+ "layer_norm_eps": 1e-12,
29
+ "layer_norm_type": "layer_norm",
30
+ "logn_attention_clip1": false,
31
+ "logn_attention_scale": false,
32
+ "max_position_embeddings": 8192,
33
+ "model_type": "new",
34
+ "num_attention_heads": 12,
35
+ "num_hidden_layers": 12,
36
+ "pack_qkv": true,
37
+ "pad_token_id": 1,
38
+ "position_embedding_type": "rope",
39
+ "rope_scaling": {
40
+ "factor": 8.0,
41
+ "type": "ntk"
42
+ },
43
+ "rope_theta": 20000,
44
+ "torch_dtype": "float32",
45
+ "transformers_version": "4.45.2",
46
+ "type_vocab_size": 1,
47
+ "unpad_inputs": false,
48
+ "use_memory_efficient_attention": false,
49
+ "vocab_size": 262789
50
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.2.1",
4
+ "transformers": "4.45.2",
5
+ "pytorch": "2.4.0+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
configuration.py ADDED
@@ -0,0 +1,145 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # coding=utf-8
2
+ # Copyright 2024 The GTE Team Authors and Alibaba Group.
3
+ # Copyright (c) 2018, NVIDIA CORPORATION. All rights reserved.
4
+ #
5
+ # Licensed under the Apache License, Version 2.0 (the "License");
6
+ # you may not use this file except in compliance with the License.
7
+ # You may obtain a copy of the License at
8
+ #
9
+ # http://www.apache.org/licenses/LICENSE-2.0
10
+ #
11
+ # Unless required by applicable law or agreed to in writing, software
12
+ # distributed under the License is distributed on an "AS IS" BASIS,
13
+ # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
14
+ # See the License for the specific language governing permissions and
15
+ # limitations under the License.
16
+ """ NEW model configuration"""
17
+ from transformers.configuration_utils import PretrainedConfig
18
+ from transformers.utils import logging
19
+
20
+ logger = logging.get_logger(__name__)
21
+
22
+
23
+ class NewConfig(PretrainedConfig):
24
+ r"""
25
+ This is the configuration class to store the configuration of a [`NewModel`] or a [`TFNewModel`]. It is used to
26
+ instantiate a NEW model according to the specified arguments, defining the model architecture. Instantiating a
27
+ configuration with the defaults will yield a similar configuration to that of the NEW
28
+ [izhx/new-base-en](https://huggingface.co/izhx/new-base-en) architecture.
29
+
30
+ Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
31
+ documentation from [`PretrainedConfig`] for more information.
32
+
33
+
34
+ Args:
35
+ vocab_size (`int`, *optional*, defaults to 30522):
36
+ Vocabulary size of the NEW model. Defines the number of different tokens that can be represented by the
37
+ `inputs_ids` passed when calling [`NewModel`] or [`TFNewModel`].
38
+ hidden_size (`int`, *optional*, defaults to 768):
39
+ Dimensionality of the encoder layers and the pooler layer.
40
+ num_hidden_layers (`int`, *optional*, defaults to 12):
41
+ Number of hidden layers in the Transformer encoder.
42
+ num_attention_heads (`int`, *optional*, defaults to 12):
43
+ Number of attention heads for each attention layer in the Transformer encoder.
44
+ intermediate_size (`int`, *optional*, defaults to 3072):
45
+ Dimensionality of the "intermediate" (often named feed-forward) layer in the Transformer encoder.
46
+ hidden_act (`str` or `Callable`, *optional*, defaults to `"gelu"`):
47
+ The non-linear activation function (function or string) in the encoder and pooler. If string, `"gelu"`,
48
+ `"relu"`, `"silu"` and `"gelu_new"` are supported.
49
+ hidden_dropout_prob (`float`, *optional*, defaults to 0.1):
50
+ The dropout probability for all fully connected layers in the embeddings, encoder, and pooler.
51
+ attention_probs_dropout_prob (`float`, *optional*, defaults to 0.1):
52
+ The dropout ratio for the attention probabilities.
53
+ max_position_embeddings (`int`, *optional*, defaults to 512):
54
+ The maximum sequence length that this model might ever be used with. Typically set this to something large
55
+ just in case (e.g., 512 or 1024 or 2048).
56
+ type_vocab_size (`int`, *optional*, defaults to 2):
57
+ The vocabulary size of the `token_type_ids` passed when calling [`NewModel`] or [`TFNewModel`].
58
+ initializer_range (`float`, *optional*, defaults to 0.02):
59
+ The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
60
+ layer_norm_eps (`float`, *optional*, defaults to 1e-12):
61
+ The epsilon used by the layer normalization layers.
62
+ position_embedding_type (`str`, *optional*, defaults to `"rope"`):
63
+ Type of position embedding. Choose one of `"absolute"`, `"rope"`.
64
+ rope_theta (`float`, *optional*, defaults to 10000.0):
65
+ The base period of the RoPE embeddings.
66
+ rope_scaling (`Dict`, *optional*):
67
+ Dictionary containing the scaling configuration for the RoPE embeddings. Currently supports two scaling
68
+ strategies: linear and dynamic. Their scaling factor must be a float greater than 1. The expected format is
69
+ `{"type": strategy name, "factor": scaling factor}`. When using this flag, don't update
70
+ `max_position_embeddings` to the expected new maximum. See the following thread for more information on how
71
+ these scaling strategies behave:
72
+ https://www.reddit.com/r/LocalLLaMA/comments/14mrgpr/dynamically_scaled_rope_further_increases/. This is an
73
+ experimental feature, subject to breaking API changes in future versions.
74
+ classifier_dropout (`float`, *optional*):
75
+ The dropout ratio for the classification head.
76
+
77
+ Examples:
78
+
79
+ ```python
80
+ >>> from transformers import NewConfig, NewModel
81
+
82
+ >>> # Initializing a NEW izhx/new-base-en style configuration
83
+ >>> configuration = NewConfig()
84
+
85
+ >>> # Initializing a model (with random weights) from the izhx/new-base-en style configuration
86
+ >>> model = NewModel(configuration)
87
+
88
+ >>> # Accessing the model configuration
89
+ >>> configuration = model.config
90
+ ```"""
91
+
92
+ model_type = "new"
93
+
94
+ def __init__(
95
+ self,
96
+ vocab_size=30528,
97
+ hidden_size=768,
98
+ num_hidden_layers=12,
99
+ num_attention_heads=12,
100
+ intermediate_size=3072,
101
+ hidden_act="gelu",
102
+ hidden_dropout_prob=0.1,
103
+ attention_probs_dropout_prob=0.0,
104
+ max_position_embeddings=2048,
105
+ type_vocab_size=1,
106
+ initializer_range=0.02,
107
+ layer_norm_type='layer_norm',
108
+ layer_norm_eps=1e-12,
109
+ # pad_token_id=0,
110
+ position_embedding_type="rope",
111
+ rope_theta=10000.0,
112
+ rope_scaling=None,
113
+ classifier_dropout=None,
114
+ pack_qkv=True,
115
+ unpad_inputs=False,
116
+ use_memory_efficient_attention=False,
117
+ logn_attention_scale=False,
118
+ logn_attention_clip1=False,
119
+ **kwargs,
120
+ ):
121
+ super().__init__(**kwargs)
122
+
123
+ self.vocab_size = vocab_size
124
+ self.hidden_size = hidden_size
125
+ self.num_hidden_layers = num_hidden_layers
126
+ self.num_attention_heads = num_attention_heads
127
+ self.hidden_act = hidden_act
128
+ self.intermediate_size = intermediate_size
129
+ self.hidden_dropout_prob = hidden_dropout_prob
130
+ self.attention_probs_dropout_prob = attention_probs_dropout_prob
131
+ self.max_position_embeddings = max_position_embeddings
132
+ self.type_vocab_size = type_vocab_size
133
+ self.initializer_range = initializer_range
134
+ self.layer_norm_type = layer_norm_type
135
+ self.layer_norm_eps = layer_norm_eps
136
+ self.position_embedding_type = position_embedding_type
137
+ self.rope_theta = rope_theta
138
+ self.rope_scaling = rope_scaling
139
+ self.classifier_dropout = classifier_dropout
140
+
141
+ self.pack_qkv = pack_qkv
142
+ self.unpad_inputs = unpad_inputs
143
+ self.use_memory_efficient_attention = use_memory_efficient_attention
144
+ self.logn_attention_scale = logn_attention_scale
145
+ self.logn_attention_clip1 = logn_attention_clip1
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:767b98c40875956b782bc2556891496d4f4aeab6c074fd9b03ebcfa79fd8460d
3
+ size 1260628248
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 8192,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6171493e573dfdb60b6f0d6d2753e69270d3a860cd109a5c1d2b1778c28d6052
3
+ size 19573136
tokenizer_config.json ADDED
The diff for this file is too large to render. See raw diff