在测试中使用增强数据图像

我正在处理一个行人再识别问题,并使用CMC曲线展示结果。我在训练集中使用了增强数据/图像和普通图像(目前在CUHK01上训练)。在测试时,如果我不使用增强数据与普通测试图像一起计算排名,比如Rank_1,我得到的Rank_1大约是30%。另一方面,使用增强数据后,我得到了大约65-70%的Rank_1(这相对于当前世界上的Rank_1准确率来说是异常高的)。

因此,我的几个问题是

a) 增强数据如何影响测试集,尤其是在我的情况下。

b) 我是否在过拟合或类似情况。

c) 是否有一般规则建议避免在测试案例中使用增强图像。


回答:

使用数据增强的理由是减少过拟合的几率。这样你希望告诉你的模型,参数(theta)与你增强的数据(alpha)不相关。这是通过对每个输入进行所有可能的alpha增强来实现的。但由于多种原因,这在现实中是难以实现的,例如时间/内存限制,你可能无法构建所有可能的增强等,因此可能存在一些偏见。尽管如此,它仍然能减少对你数据集的过拟合几率,但它可能会对你的增强方法过拟合。

因此,如果你有增强数据,你可能会因为过拟合而通过匹配增强数据获得更高的准确率,这是对问题a的回答。所以我认为对问题b的回答是肯定的。

为了回答问题c,我没有读到关于数据增强的规则,但在机器学习文献中,我推测他们避免在测试集上进行任何增强。例如,我引用自一篇论文

我们通过用随机背景图像替换绿屏来增强训练图像,并通过内在的重新着色来改变颜色和阴影的外观

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注