GoGPT

GoGPT:ICT中英文底座增强大模型,基于Llama/Llama 2训练的底座大模型,参数规模包括70亿参数、130亿参数



GitHub GitHub top language

模型部署

🤗Huggingface上提供了GoGPT权重,目前开放了gogpt-7b和gogpt2-7b权重

模型名称 基座模型 模型大小 下载地址
golaxy/gogpt-7b Llama-7b 7B 模型下载
golaxy/gogpt2-7b Llama2-7b 7B 模型下载

训练细节

step1:训练分词器

🐱怎么从零到一训练一个LLM分词器

├── data
│     └── corpus.txt 训练语料
├── llama
│     ├── tokenizer_checklist.chk
│     └── tokenizer.model
├── merged_tokenizer_hf 合并结果 hf格式
│     ├── special_tokens_map.json
│     ├── tokenizer_config.json
│     └── tokenizer.model
├── merged_tokenizer_sp
│     └── open_llama.model # 
├── merge_tokenizer
│     └── tokenizer.model
├── open_llama.model 训练的sp模型
├── open_llama.vocab 训练的sp词汇表
├── README.md
├── step0_step0_process_text.py 基于多分数据集准备训练语料
├── step1_make_corpus.py 基于中文Wikipedia数据准备训练语料
├── step2_train_tokenzier.py  训练分词器
├── step3_tokenzier_segment.py 测试训练后的模型,包括编码和解码测试样例
└── step4_merge_tokenizers.py 与原版llama的分词器进行合并,得到hf格式的tokenizer

step2:二次预训练

在中文预训练语料上对LLaMA进行增量预训练、继续预训练

step3: 有监督微调

  • belle数据:120k数据 v1
  • stanford_alapca:52k数据 v2
  • sharegpt:90k数据

step4: 强化学习

TODO

免责声明

本项目相关资源仅供学术研究之用,严禁用于商业用途。 使用涉及第三方代码的部分时,请严格遵循相应的开源协议。

模型生成的内容受模型计算、随机性和量化精度损失等因素影响,本项目不对其准确性作出保证。

对于模型输出的任何内容,本项目不承担任何法律责任,亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。

研究与开发团队

本项目由网络数据科学与技术重点实验室GoGPT团队完成,团队指导老师为郭嘉丰研究员。

Downloads last month
1,160
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Datasets used to train golaxy/gogpt-7b

Spaces using golaxy/gogpt-7b 24