我需要在具有正态分布的数据上训练我的网络,我注意到我的神经网络在预测时有很高的倾向性,只预测我在导出的csv文件中出现频率最高的类别标签(将它的预测与实际标签进行比较)。
除了清理数据以产生均匀分布的训练数据外,还有什么建议可以帮助我的神经网络避免只预测出现频率最高的标签?
更新:我想提一下,评论部分提出的建议确实有效。然而,我发现通过在我的神经网络中添加一个额外的层,可以缓解这个问题。
回答:
假设神经网络是使用小批量(mini-batches)进行训练的,可以通过确保每个小批量都是均匀分布的,来模拟(而不是生成)均匀分布的训练数据。
例如,假设是一个三类分类问题,小批量大小为30,可以通过随机选择每个类别的10个样本(如有必要,可以重复选择)来构建每个小批量。