模型和 phi2 的关系是什么?

#1
by xianf - opened

很棒的想法,把 phi2 实现到中文上。但是 phi2 是使用一定的 topic 和 token 从 GPT 生成了一定量级的伪数据来训练的。这个模型和 phi2 的关系好像并不大?还是说联系是,选择的预训练数据都是知识型的数据,而不是 common crawl 这种通用数据?

模型结构是 phi2 ,但参数不一样,是小模型。预训练数据、sft数据、dpo数据和微软 phi2不一样,我这都是中文的,其他语种很少。预训练数据就属于知识型数据了,通用数据太大了我这跑不动,github仓库的dev分支有合并wiki数据的预训练处理代码,有需要你可以参考下。

charent changed discussion status to closed
charent changed discussion status to open

Sign up or log in to comment