负样本挖掘
#5
by
sallythu
- opened
感谢您的分享!
另外有个问题想请教一下,readme中提到的正例清洗是如何做的?可以分享一下思路吗?
然后“负例的难度”可以理解为同一个query下面的负样本与正样本之间的相似度吗?
例如,相似距离在0.4在0.7之间是否可以算作中等难度?
谢谢~
一、正例清洗:我是用的bge-reranker进行正例清洗,丢掉打分小于0的
二、中等难度负例:1) 卡阈值(如您说的0.4-0.7,但具体要数值可能调一波) 2)卡排名(如bge给的脚本默认卡排名10-210之间) 3)设置相对上限(如正例打分-0.1)
其中正例清洗部分,确认有效;中等负例部分,没有做具体消融,只是自己实验的时候试着拍脑袋添加的限制,但总体对我的数据是有效的
一、正例清洗:我是用的bge-reranker进行正例清洗,丢掉打分小于0的
二、中等难度负例:1) 卡阈值(如您说的0.4-0.7,但具体要数值可能调一波) 2)卡排名(如bge给的脚本默认卡排名10-210之间) 3)设置相对上限(如正例打分-0.1)其中正例清洗部分,确认有效;中等负例部分,没有做具体消融,只是自己实验的时候试着拍脑袋添加的限制,但总体对我的数据是有效的
学习了,谢谢大佬指点~
sallythu
changed discussion status to
closed