quincyqiang
commited on
Commit
·
e5b6b00
1
Parent(s):
55360a0
Update README.md
Browse files
README.md
CHANGED
@@ -59,14 +59,21 @@ tags:
|
|
59 |
|
60 |
## 🚀step2:二次预训练
|
61 |
|
62 |
-
> 在中文预训练语料上对LLaMA
|
63 |
|
64 |
## 🚀step3: 有监督微调
|
65 |
|
66 |
- belle数据:120k数据 v1
|
67 |
- stanford_alapca:52k数据 v2
|
|
|
68 |
- [sharegpt](data%2Ffinetune%2Fsharegpt):90k数据
|
69 |
|
|
|
|
|
|
|
|
|
|
|
|
|
70 |
## 免责声明
|
71 |
|
72 |
本项目相关资源仅供学术研究之用,严禁用于商业用途。 使用涉及第三方代码的部分时,请严格遵循相应的开源协议。
|
|
|
59 |
|
60 |
## 🚀step2:二次预训练
|
61 |
|
62 |
+
> 在中文预训练语料上对LLaMA进行增量预训练、继续预训练,目前训练语料20GB,后续继续迭代更新
|
63 |
|
64 |
## 🚀step3: 有监督微调
|
65 |
|
66 |
- belle数据:120k数据 v1
|
67 |
- stanford_alapca:52k数据 v2
|
68 |
+
- stanford_alapca_gpt4_zh:52k数据 v2
|
69 |
- [sharegpt](data%2Ffinetune%2Fsharegpt):90k数据
|
70 |
|
71 |
+
根据长度(输出长度大约500)采样之后,筛选出11万指令数据进行sft训练
|
72 |
+
|
73 |
+
|
74 |
+
## 测试效果
|
75 |
+
|
76 |
+
|
77 |
## 免责声明
|
78 |
|
79 |
本项目相关资源仅供学术研究之用,严禁用于商业用途。 使用涉及第三方代码的部分时,请严格遵循相应的开源协议。
|