设 k = alpha * partial_derivative ( J (theta1) ) w.r.t theta1
theta1 := theta1 - k
。
在Andrew的课程中,他提到alpha是学习率。如果导数为正,我们减去alpha * k
,如果为负,我们加上它。为什么我们需要减去这个alpha * partial_derivative ( J (theta1) ) w.r.t theta1
,而不是alpha * just the sign of derivative
?
为什么需要进行这个乘法运算?谢谢。
回答:
我们需要在接近最小值时减小k的值 – 即步长值。我们知道,当达到最小值时,导数也会变为零。因此,我们将alpha和导数相乘,以生成一个在接近最小值时趋于零的步长值。