神经网络优化 – 学技术

我正在尝试理解Keras中ReduceLROnPlateau()函数的用途。

我了解到这个函数在验证损失没有改善时会帮助降低学习率。但这不会使网络无法摆脱局部最小值吗？如果网络在一个局部最小值停留了大约5个epoch，而这个函数进一步降低了学习率，而实际上增加学习率会帮助网络摆脱这样的局部最小值，那该怎么办？

换句话说，它如何判断是达到了局部最小值还是一个平台期？

回答：

首先，这里有一个来自CS231n课程的很好的解释，说明为什么学习率衰减在一般情况下是合理的：

在训练深度网络时，随着时间的推移降低学习率通常是有帮助的。一个好的直觉是，当学习率较高时，系统包含过多的动能，参数向量会混乱地弹跳，无法安定下来进入损失函数中更深但更窄的部分。知道何时衰减学习率可能很棘手：缓慢衰减会浪费计算时间，系统会长时间混乱地弹跳而几乎没有改善。但如果衰减得太激进，系统会冷却得太快，无法达到它能达到的最佳位置。

关于你的问题，不幸的是，你无法得知这一点。如果优化器进入了一个深谷且无法摆脱，它只是希望这个深谷是好的，值得用更小的学习率来探索。目前，还没有技术可以判断是否有更好的深谷，即它是局部还是全局最小值。因此，优化器会选择探索当前的深谷，而不是跳到很远的地方重新开始。实际上，局部最小值之间的差异并不大，这就是为什么这种策略通常有效的原因。

还要注意的是，损失表面在某个学习率下可能看起来像一个平台期，但在学习率降低10倍后可能就不再是平台期。因此，“摆脱平台期”和“摆脱局部最小值”是不同的挑战，而ReduceLROnPlateau针对的是第一个挑战。

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复