text2vec-base-chinese-paraphrase模型训练时的max_seq_length长度和模型接受输入的tokens数不一致的原因

by zzzzz2023 - opened Jul 25, 2023

zzzzz2023

Jul 25, 2023

您好，我看text2vec-base-chinese-paraphrase模型的训练超参中max_seq_length为256，可是该模型可接受的token的数量为2048，为啥在后续训练的过程中不将max_seq_length设置为2048呐，而是设置为256，其中有什么技巧么？假如我想后续继续finetune，可以将max_seq_length设置到2048左右么

shibing624

Owner Jul 25, 2023

2048我的gpu会爆
训练集我统计了长度分布，95%少于256，https://huggingface.co/datasets/shibing624/nli-zh-all
可以

zzzzz2023

Jul 25, 2023

ok，明白了，谢谢大佬，我在进行类似nli的任务微调过程中，效果不是很好，想请教下您，可以分享下后续下游任务微调的技巧嘛？

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment