asadfgglie/banban-vision-8b-v1.2.1-zh-DPO

將asadfgglie/banban-vision-8b-v1.2-zh對asadfgglie/BanBan_2024-10-17-DPO再次DPO訓練後的版本

目前已知問題是中文能力會直接消失

英文能力反而有靠向這個資料集想要的偏好方向

推測是epoch=4導致的訓練過擬合

我原本想說eval loss與train loss都穩步下降的說

結果我等了10小時卻給我這個

哭阿

Downloads last month: 20

Safetensors

Model size

8.36B params

Tensor type

FP16

Inference Examples

Text Generation

This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for asadfgglie/banban-vision-8b-v1.2.1-zh-DPO

Base model

xtuner/llava-llama-3-8b-v1_1-transformers

Finetuned

asadfgglie/banban-vision-8b-v1-pretrain-zh

Finetuned

asadfgglie/banban-vision-8b-v1.2-zh

Finetuned

(1)

this model

asadfgglie
/

banban-vision-8b-v1.2.1-zh-DPO

asadfgglie/banban-vision-8b-v1.2.1-zh-DPO

Model tree for asadfgglie/banban-vision-8b-v1.2.1-zh-DPO

Dataset used to train asadfgglie/banban-vision-8b-v1.2.1-zh-DPO