合成数据相关问题
#3
by
zhilinw6
- opened
- 求在cmedqa retrieval遥遥领先的经验,是用的cmedqa v1约5w+v2约10w吗,有添加大量合成数据吗
- 合成数据目的是在于扩充数据量 / 确保数据质量 / 多样性 / 长文本召回,还是什么呢
- 合成数据都是在基于doc生成query是吗
- FT阶段 整体数据量级大概多少呢,训练时长是多久呀
俺也想知道,合成数据的具体过程!!!求分享!!!
代码还在整理哈,开源后会在这里同步告知呢