text2vec-base-chinese-paraphrase模型训练时的max_seq_length长度和模型接受输入的tokens数不一致的原因

#1
by zzzzz2023 - opened

您好,我看text2vec-base-chinese-paraphrase模型的训练超参中max_seq_length为256,可是该模型可接受的token的数量为2048,为啥在后续训练的过程中不将max_seq_length设置为2048呐,而是设置为256,其中有什么技巧么?假如我想后续继续finetune,可以将max_seq_length设置到2048左右么

  1. 2048我的gpu会爆
  2. 训练集我统计了长度分布,95%少于256,https://huggingface.co/datasets/shibing624/nli-zh-all
  3. 可以

ok,明白了,谢谢大佬,我在进行类似nli的任务微调过程中,效果不是很好,想请教下您,可以分享下后续下游任务微调的技巧嘛?

Sign up or log in to comment