我正在处理一个行人再识别问题,并使用CMC曲线展示结果。我在训练集中使用了增强数据/图像和普通图像(目前在CUHK01上训练)。在测试时,如果我不使用增强数据与普通测试图像一起计算排名,比如Rank_1,我得到的Rank_1大约是30%。另一方面,使用增强数据后,我得到了大约65-70%的Rank_1(这相对于当前世界上的Rank_1准确率来说是异常高的)。
因此,我的几个问题是
a) 增强数据如何影响测试集,尤其是在我的情况下。
b) 我是否在过拟合或类似情况。
c) 是否有一般规则建议避免在测试案例中使用增强图像。
回答:
使用数据增强的理由是减少过拟合的几率。这样你希望告诉你的模型,参数(theta)与你增强的数据(alpha)不相关。这是通过对每个输入进行所有可能的alpha增强来实现的。但由于多种原因,这在现实中是难以实现的,例如时间/内存限制,你可能无法构建所有可能的增强等,因此可能存在一些偏见。尽管如此,它仍然能减少对你数据集的过拟合几率,但它可能会对你的增强方法过拟合。
因此,如果你有增强数据,你可能会因为过拟合而通过匹配增强数据获得更高的准确率,这是对问题a的回答。所以我认为对问题b的回答是肯定的。
为了回答问题c,我没有读到关于数据增强的规则,但在机器学习文献中,我推测他们避免在测试集上进行任何增强。例如,我引用自一篇论文
我们通过用随机背景图像替换绿屏来增强训练图像,并通过内在的重新着色来改变颜色和阴影的外观