Home IT技术训练集准确率随集大小增加而下降

训练集准确率随集大小增加而下降

IT技术 xiaolong · 2025年4月15日 · 0 Comment

为了更深入了解机器学习算法，我正在使用自己收集的一些数据进行实验，但在使用我的神经网络算法时出现了奇怪的行为…

我的数据集由分为三种不同可能类别的数据组成（假设A类占数据集的5%，B类占5%，C类占90%）。

当我使用一个“小”训练集（约1800个条目）时，我的训练集准确率接近100%（A:99% B:100% C:100% -> 相当正常），但我的交叉验证集和测试集准确率非常差。

于是我尝试使用一个更大的训练集（约12000个条目），我的训练集准确率显著下降（A:18%，B:28%，C:99%），而测试集准确率仍然很差。

然后我尝试使用一个中等大小的训练集（约5500个条目），如预期的那样，训练集的准确率介于前两个结果之间（A:45%，B:78%，C:99%），而测试集准确率显然仍然很差。

你知道这种结果的原因可能是什么吗？我的数据集是否缺少能够帮助区分A、B和C三类的定性特征，还是有其他潜在原因可以解释这样的结果？

以防万一，这里是我的当前神经网络的配置，可能会提供一些线索：

隐藏层：1
激活单元数量：特征数量的两倍
lambda：2.0

回答：

由于三个训练集的维度非常不平衡（5%，5%和90%），你对C类出现了过拟合。这首先解释了交叉验证和测试集的低准确率。然后，当训练集大小增加时，训练集准确率也下降，因为有如此多的C类项目，它们倾向于显著改变网络权重，即使你使用较小的学习率也是如此。

换句话说，由于在C类上的训练所引起的权重修改远比在A类和B类上的训练所引起的修改更为显著，因此网络实际上“忘记”了在A类和B类上的权重修改。

machine-learning training-data

发表回复取消回复