在测试中使用增强数据图像

我正在处理一个行人再识别问题,并使用CMC曲线展示结果。我在训练集中使用了增强数据/图像和普通图像(目前在CUHK01上训练)。在测试时,如果我不使用增强数据与普通测试图像一起计算排名,比如Rank_1,我得到的Rank_1大约是30%。另一方面,使用增强数据后,我得到了大约65-70%的Rank_1(这相对于当前世界上的Rank_1准确率来说是异常高的)。

因此,我的几个问题是

a) 增强数据如何影响测试集,尤其是在我的情况下。

b) 我是否在过拟合或类似情况。

c) 是否有一般规则建议避免在测试案例中使用增强图像。


回答:

使用数据增强的理由是减少过拟合的几率。这样你希望告诉你的模型,参数(theta)与你增强的数据(alpha)不相关。这是通过对每个输入进行所有可能的alpha增强来实现的。但由于多种原因,这在现实中是难以实现的,例如时间/内存限制,你可能无法构建所有可能的增强等,因此可能存在一些偏见。尽管如此,它仍然能减少对你数据集的过拟合几率,但它可能会对你的增强方法过拟合。

因此,如果你有增强数据,你可能会因为过拟合而通过匹配增强数据获得更高的准确率,这是对问题a的回答。所以我认为对问题b的回答是肯定的。

为了回答问题c,我没有读到关于数据增强的规则,但在机器学习文献中,我推测他们避免在测试集上进行任何增强。例如,我引用自一篇论文

我们通过用随机背景图像替换绿屏来增强训练图像,并通过内在的重新着色来改变颜色和阴影的外观

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注