梯度下降 – 步长值

设 k = alpha * partial_derivative ( J (theta1) ) w.r.t theta1

theta1 := theta1 - k。

在Andrew的课程中，他提到alpha是学习率。如果导数为正，我们减去alpha * k，如果为负，我们加上它。为什么我们需要减去这个alpha * partial_derivative ( J (theta1) ) w.r.t theta1，而不是alpha * just the sign of derivative？

为什么需要进行这个乘法运算？谢谢。

回答：

我们需要在接近最小值时减小k的值 – 即步长值。我们知道，当达到最小值时，导数也会变为零。因此，我们将alpha和导数相乘，以生成一个在接近最小值时趋于零的步长值。

学技术

梯度下降 – 步长值

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复