在线性回归领域中使用梯度下降法的好处是什么?看起来我们可以通过解析方法解决这个问题(找到使成本函数最小化的theta0-n),那么为什么我们还要使用梯度下降法来做同样的事情呢?谢谢
回答:
当你使用正规方程来解析地解决成本函数时,你需要计算:
其中X是你输入观测值的矩阵,y是你的输出向量。这个操作的问题在于计算nxn矩阵的逆的时间复杂度是O(n^3),随着n的增加,计算可能需要很长时间才能完成。
当n较低时(n < 1000 或 n < 10000),你可以认为正规方程是计算theta的更好选择,然而对于更大的值,梯度下降法要快得多,所以唯一的原因就是时间 🙂