Model Card for blip2zh-chatglm-6b

Model Details

Model Description

blip2zh-chatglm-6b是基于blip2训练的中文多模态聊天模型。具有基本的图像理解能力。 由于blip2的训练方式不会对语言模型进行微调,因此在纯文本对话中的行为可以保持和原始chatglm一致。

注意:由于目前模型仅经过blip2两阶段图文对齐预训练,没有包括vqa或者指令微调等具体下游任务的训练,因此依然容易生成不符合预期的内容。

Model Sources

  • Training Code: blip2训练代码,基于LAVIS
  • webui: 一个由gradio实现的webui
  • api: 一个由fastapi实现的api服务,可以部署在本地,同时也支持一些其他类型的本地可部署语言模型。

Uses

模型参数包含了图像编码器,blip2和chatglm-6b。

加载模型及推理可以参考api的实现

一些example

Limitations

受限于中文数据集,目前图像理解能力依然有限,会产生无关或者错误的内容。 目前没有引入多轮对话训练以及指令微调。多轮对话可能会受到上下文的干扰。 并且同样受限于chatglm-6b本身的对话效果。

Training Details

Training Data

Training Procedure

基于blip2的两阶段训练方法

Demos

Downloads last month
22
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The HF Inference API does not support model that require custom code execution.