如何消除训练数据分布对后续神经网络分类功能的巨大负面影响?

我需要在具有正态分布的数据上训练我的网络,我注意到我的神经网络在预测时有很高的倾向性,只预测我在导出的csv文件中出现频率最高的类别标签(将它的预测与实际标签进行比较)。

除了清理数据以产生均匀分布的训练数据外,还有什么建议可以帮助我的神经网络避免只预测出现频率最高的标签?

更新:我想提一下,评论部分提出的建议确实有效。然而,我发现通过在我的神经网络中添加一个额外的层,可以缓解这个问题。


回答:

假设神经网络是使用小批量(mini-batches)进行训练的,可以通过确保每个小批量都是均匀分布的,来模拟(而不是生成)均匀分布的训练数据。

例如,假设是一个三类分类问题,小批量大小为30,可以通过随机选择每个类别的10个样本(如有必要,可以重复选择)来构建每个小批量。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注