BAAI
/

IndustryCorpus2_DataRater

Model card Files Files and versions Community

MonteXiaofeng commited on Sep 19, 2024

Commit

36c4add

·

verified ·

1 Parent(s): 6ec01db

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -56,7 +56,7 @@ base_model:
   模型评估：在验证集上模型与GPT4对样本质量判定一致率为90%
-  ![image-20240919142248242](/Users/baai/Alidisk/ks3/IndustryCorpus_DataRater/img/quality-exp.png)
 - 高质量数据带来的训练收益
@@ -64,7 +64,7 @@ base_model:
   曲线中可以看到，经过高质量数据训练的模型14B的tokens可以达到普通数据50B的模型表现，高质量的数据可以极大的提升训练效率。
-  ![image-20240919142732476](/Users/baai/Alidisk/ks3/IndustryCorpus_DataRater/img/quality_train.png)
 此外，高质量的数据可以作为预训练的退火阶段的数据加入到模型中，进一步拉升模型效果，为了验证这个猜测，我们在训练行业模型时候，在模型的退火阶段加入了筛选之后高质量数据和部分指令数据转成的预训练数据，可以看到极大提高了模型的表现。

   模型评估：在验证集上模型与GPT4对样本质量判定一致率为90%
+  ![image-20240919142248242](./img/quality-exp.png)
 - 高质量数据带来的训练收益
   曲线中可以看到，经过高质量数据训练的模型14B的tokens可以达到普通数据50B的模型表现，高质量的数据可以极大的提升训练效率。
+  ![image-20240919142732476](./img/quality_train.png)
 此外，高质量的数据可以作为预训练的退火阶段的数据加入到模型中，进一步拉升模型效果，为了验证这个猜测，我们在训练行业模型时候，在模型的退火阶段加入了筛选之后高质量数据和部分指令数据转成的预训练数据，可以看到极大提高了模型的表现。