wangyuxin commited on
Commit
8fab55c
1 Parent(s): 5a20c5e

add 模型对比

Browse files
Files changed (1) hide show
  1. README.md +18 -2
README.md CHANGED
@@ -3,8 +3,8 @@ language:
3
  - zh
4
  - en
5
  tags:
6
- - embedding
7
- - text-embedding
8
  ---
9
 
10
  # M3E Models
@@ -22,6 +22,22 @@ M3E 是 Moka Massive Mixed Embedding 的缩写
22
  - 2023.06.08,添加检索任务的评测结果,在 T2Ranking 1W 中文数据集上,m3e-base 在 ndcg@10 上达到了 0.8004,超过了 openai-ada-002 的 0.7786
23
  - 2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956
24
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
25
  ## 使用方式
26
 
27
  您需要先安装 sentence-transformers
 
3
  - zh
4
  - en
5
  tags:
6
+ - embedding
7
+ - text-embedding
8
  ---
9
 
10
  # M3E Models
 
22
  - 2023.06.08,添加检索任务的评测结果,在 T2Ranking 1W 中文数据集上,m3e-base 在 ndcg@10 上达到了 0.8004,超过了 openai-ada-002 的 0.7786
23
  - 2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956
24
 
25
+ ## 模型对比
26
+
27
+ | | 参数数量 | 维度 | 中文 | 英文 | s2s | s2p | s2c | 开源 | 兼容性 | s2s Acc | s2p ndcg@10 |
28
+ | --------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | ---- | ---------- | ------------ | -------- |
29
+ | m3e-small | 24M | 512 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5755 | 0.7262 |
30
+ | m3e-base | 110M | 768 | 是 | 是 | 是 | 否 | 否 | 是 | 优 | 0.5834 | 0.8004 |
31
+ | text2vec | 110M | 768 | 是 | 否 | 是 | 否 | 否 | 是 | 良 | 0.6157 | 0.6346 |
32
+ | openai | 未知 | 1576 | 是 | 是 | 是 | 否 | 是 | 否 | 优 | 0.5956 | 0.7786 |
33
+
34
+ 说明:
35
+ - s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
36
+ - s2p, 即 sentence to passage ,代表了异质文本之间的嵌入能力,适用任务:文本检索,GPT 记忆模块等
37
+ - s2c, 即 sentence to code ,代表了自然语言和程序语言之间的嵌入能力,适用任务:代码检索
38
+ - 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e 是基于 sentence-transformers 的,所以和 openai 在社区的支持度上相当
39
+ - ACC & ndcg@10,详情见下方的评测
40
+
41
  ## 使用方式
42
 
43
  您需要先安装 sentence-transformers