zgce
/

Skywork-13B-spicy-lora

Model card Files Files and versions Community

zgce commited on Dec 9, 2023

Commit

0468293

•

1 Parent(s): 779b4f9

Update README.md

Files changed (1) hide show

README.md +2 -0

README.md CHANGED Viewed

@@ -3,5 +3,7 @@ license: mit
 ---
 这个使用了spicy数据集，外加google翻译了其中的30%的数据组成了新的数据集 在 [Skywork-13B-unalign-lora](https://huggingface.co/zgce/Skywork-13B-unalign-lora) 基础上继续训练出来的，如果你在使用时发现中文回复有一股翻译腔那不是我的错是Google的问题。
 整个LoRA在我的4090上用batch 1 跑了 1 epoch  耗费了33小时
 由于显存有限，在训练时先用了--cutoff_len 1024 不知道会有什么影响

 ---
 这个使用了spicy数据集，外加google翻译了其中的30%的数据组成了新的数据集 在 [Skywork-13B-unalign-lora](https://huggingface.co/zgce/Skywork-13B-unalign-lora) 基础上继续训练出来的，如果你在使用时发现中文回复有一股翻译腔那不是我的错是Google的问题。
+模型使用了[Skywork-13B-Base-8bits](https://huggingface.co/Skywork/Skywork-13B-Base-8bits) 为底模进行的训练
 整个LoRA在我的4090上用batch 1 跑了 1 epoch  耗费了33小时
 由于显存有限，在训练时先用了--cutoff_len 1024 不知道会有什么影响