合成数据相关问题

#3
by zhilinw6 - opened
  1. 求在cmedqa retrieval遥遥领先的经验,是用的cmedqa v1约5w+v2约10w吗,有添加大量合成数据吗
  2. 合成数据目的是在于扩充数据量 / 确保数据质量 / 多样性 / 长文本召回,还是什么呢
  3. 合成数据都是在基于doc生成query是吗
  4. FT阶段 整体数据量级大概多少呢,训练时长是多久呀

俺也想知道,合成数据的具体过程!!!求分享!!!

chuxin org

代码还在整理哈,开源后会在这里同步告知呢

Sign up or log in to comment