golaxy
/

gogpt2-7b

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

quincyqiang commited on Jul 22, 2023

Commit

e5b6b00

·

1 Parent(s): 55360a0

Update README.md

Files changed (1) hide show

README.md +8 -1

README.md CHANGED Viewed

@@ -59,14 +59,21 @@ tags:
 ## 🚀step2：二次预训练
-> 在中文预训练语料上对LLaMA进行增量预训练、继续预训练
 ## 🚀step3: 有监督微调
 - belle数据：120k数据  v1
 - stanford_alapca：52k数据 v2
 - [sharegpt](data%2Ffinetune%2Fsharegpt):90k数据
 ## 免责声明
 本项目相关资源仅供学术研究之用，严禁用于商业用途。 使用涉及第三方代码的部分时，请严格遵循相应的开源协议。

 ## 🚀step2：二次预训练
+> 在中文预训练语料上对LLaMA进行增量预训练、继续预训练，目前训练语料20GB，后续继续迭代更新
 ## 🚀step3: 有监督微调
 - belle数据：120k数据  v1
 - stanford_alapca：52k数据 v2
+- stanford_alapca_gpt4_zh：52k数据 v2
 - [sharegpt](data%2Ffinetune%2Fsharegpt):90k数据
+根据长度（输出长度大约500）采样之后，筛选出11万指令数据进行sft训练
+## 测试效果
 ## 免责声明
 本项目相关资源仅供学术研究之用，严禁用于商业用途。 使用涉及第三方代码的部分时，请严格遵循相应的开源协议。