Keras Adam优化器的学习率超参数与网络参数的个别计算学习率有什么关系？

通过我对Adam的有限理解（主要通过这篇文章：https://towardsdatascience.com/adam-latest-trends-in-deep-learning-optimization-6be9a291375c），我了解到Adam优化器为网络中的每个参数计算个别的学习率。

但是在Keras文档中（https://keras.io/optimizers/），Adam优化器接受一个学习率参数。

我的问题是Adam对象接受的学习率参数与这些计算出的学习率有什么关联？据我所知，这在链接的文章中没有涉及（或者涉及了但我没有理解）。

回答：

由于这是一个非常具体的问题，我不会涉及Adam的数学细节。我猜在文章中，它为不同参数计算个别学习率这句话让你困惑了。

这是论文中提出的实际Adam算法的截图 https://arxiv.org/pdf/1412.6980.pdf

Adam保持过去梯度的指数衰减平均值，因此它的行为类似于带有摩擦的重球，这有助于更快的收敛和稳定性。

但是，如果你仔细查看算法，会发现一个alpha（步长），这是我们提供的Keras中学习率的等价物，通常为0.001。所以，算法需要一个步长来更新参数（简单来说，它是权重更新的缩放因子）。至于变化的学习率（或更新），你可以看到最后一个方程（它使用m_t和v_t，这些是在循环中更新的），但alpha在整个算法中保持不变。这就是我们必须提供的Keras学习率。

由于alpha保持不变，有时我们需要使用学习率调度，在几个周期后实际降低学习率。还有其他变体，我们先增加然后降低学习率。

学技术

Keras Adam优化器的学习率超参数与网络参数的个别计算学习率有什么关系？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复