最近我发现了一个例子,其中一个神经网络尝试对字符进行分类。训练了两个神经网络,一个使用了嘈杂数据集,另一个没有。我试图找到任何理论上的解释,说明为什么使用嘈杂的训练集能得到更好的结果,但我没有找到足够的信息来理解。能有人解释一下吗?提前谢谢
回答:
用带噪声的数据训练神经网络可以提高其泛化能力(即网络对新未知数据进行正确预测的能力),因为噪声使得神经网络难以精确拟合每个数据点(防止神经网络仅仅记住训练数据的具体数值,从而迫使其学习更有意义的关系)。关于噪声与其他形式的正则化之间的关系的数学细节和信息,你可以查看这篇论文