BAAI
/

Safetensors
xlm-roberta
MonteXiaofeng commited on
Commit
df97c25
·
verified ·
1 Parent(s): 16890fd

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -1
README.md CHANGED
@@ -4,7 +4,9 @@ base_model:
4
  - BAAI/bge-m3
5
  ---
6
 
7
- 本模型为数据集[BAAI/IndustryCorpus2](https://huggingface.co/datasets/BAAI/IndustryCorpus2)的质量评估模型,用于从语义一致性,信息密度,教育属性等维度评估预训练数据的质量,,对预训练语料进行质量评估。
 
 
8
 
9
  ## 为什么要筛选低质量的数据
10
 
 
4
  - BAAI/bge-m3
5
  ---
6
 
7
+ 本模型为数据集[BAAI/IndustryCorpus2](https://huggingface.co/datasets/BAAI/IndustryCorpus2)的质量评估模型,用于从语义一致性,信息密度,教育属性等维度评估预训练数据的质量。
8
+
9
+ 按照我们的定义并经过实验,3分以上是相对高质量数据,4分以上绝对高质量数据,可以根据数据量按需所取。
10
 
11
  ## 为什么要筛选低质量的数据
12