qgyd2021's picture
Update README.md
ebb49a0 verified
|
raw
history blame
1.1 kB
metadata
license: apache-2.0

few_shot_intent_gpt2

这个模型是基于 uer/gpt2-chinese-cluecorpussmall 模型在 qgyd2021/few_shot_intent_sft 数据集上微调的结果.

(1)因为 [qgyd2021/few_shot_intent_sft](https://huggingface.co/datasets/qgyd2021/few_shot_intent_sft) 数据集的 `*_prompt` 子集是动态生成的,因此首先,生成 3 个 epoch 的数据作为训练集和验证集。
(2)3 个 epoch 的数据在训练时算 1 个 epoch。训练到大约 0.32 个 epoch 时(即 11000 steps)处 Early Stop。 (训练时的 0.32 个 epoch,相当于原始数据 3 个 epoch 的 1 个 epoch)。
(3)此处保存的是 checkpoint-6000 (6000 steps)的权重。

最终的模型大约是在训练了 0.6 个 epoch 时保存的结果。

你可以在此处体验该模型 qgyd2021/gpt2_chat

Eval Loss 见下图:

eval_loss.jpg