我在试图解决一个问题,我正在处理一个大型的图片数据集,关键是几乎每张图片中只有一个人,每个类别应该代表不同的人,但由于某些原因,每个类别中每1000张图片中大约有1张图片上的脸不属于那个类别(不是该类别中其他图片上的人),实际上,被错误标记的人也不属于任何类别。我的问题是:在学习过程中会发生什么?卷积神经网络会学到那张脸对任务没有用吗?还是会产生某种错误?我问这个问题是因为我需要知道是否需要移除这些“噪声”图片以获得更好的性能,或者错误是否可以忽略不计。提前感谢大家!
回答:
误导性的目标肯定会给你的数据增加噪声。如果你有大量错误标记的数据,训练过程会变得更加不稳定。不过,在你的情况下,如果错误标记的数据比例是1/1000,除非你在使用加权类别,否则不会对训练产生太大影响。
顺便说一下,如果你正在尝试创建一个通过面部图像分类人的模型,你可能需要创建其他特征,比如眼睛位置、肤色等。