减少（而不是延迟）神经网络中的过拟合

在神经网络中，常用正则化（例如L2正则化、dropout）来减少过拟合。例如，下图展示了典型的损失与轮次的关系图，分别展示了使用和不使用dropout的情况。实线表示训练集，虚线表示验证集，蓝色表示基线（无dropout），橙色表示使用dropout。图表来自Tensorflow教程。权重正则化的表现类似。

正则化延迟了验证损失开始增加的轮次，但显然正则化并未降低验证损失的最小值（至少在我使用的模型和上述图表来源的教程中是这样）。

如果我们使用提前停止策略，在验证损失达到最小值时停止训练（以避免过拟合），并且如果正则化只是延迟了验证损失的最小点（而不是降低验证损失的最小值），那么似乎正则化并不会带来更好的网络泛化能力，而只是减缓了训练速度。

如何使用正则化来减少验证损失的最小值（以提高模型的泛化能力），而不是仅仅延迟它？如果正则化只是延迟验证损失的最小值而不是减少它，那么为什么还要使用它呢？

回答：

仅从一个教程图表中过度泛化显然不是一个好主意；这里有一张来自原始dropout论文的相关图表：

显然，如果dropout的效果只是延迟收敛，它将不会有太大用处。但当然，它并不总是有效（正如你的图表所明显显示），因此不应默认使用（这可能是这里的教训）…

学技术

减少（而不是延迟）神经网络中的过拟合

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复