此为base model,未经SFT与DPO对齐,不具备指令跟随能力。模型在科学知识问题上比较突出,代码和写作能力一般。

Instruct版本见https://huggingface.co/unakar/Unakar-1.5B-Instruct

争取10月前放出完整的教程/技术报告/pretrain数据/全流程logbook

Pretrain数据主要来自huggingface上一些开源数据,经过合成过滤得到,比如fineweb-edu,dclm, llama3-syne。考虑到phi的textbook is all your need,大部分主题都是wiki和textbook。其余是代码/数学/问答/推理/通用等等。

模型架构基本沿用llama,修改了mlp-ratio为2.6875以获得理想最大tflops数。GQA,rope也没什么好说的。

训练采用32卡数据并行,zero1, 约3天完成。三阶段pretrain,依次是通用-数学/代码推理-长上下文。末期退火测了一批数据质量。

微调分二阶段进行,基本沿用阿里23年10月那篇,此处不再赘述。RLHF使用DPO,数据均来自开源数据集。

且待后续完善!进行ing

Downloads last month
12
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.

Model tree for unakar/Unakar1.5B-base

Unable to build the model tree, the base model loops to the model itself. Learn more.