为什么使用函数的导数来计算局部最小值而不是实际函数本身？

在机器学习的回归问题中，为什么要计算导数函数的局部最小值而不是实际函数的局部最小值？

示例： http://en.wikipedia.org/wiki/Gradient_descent

梯度下降算法被用来寻找函数的局部最小值 $$

f(x)=x^4−3x^3+2, ----(A)

其导数为

f'(x)=4x^3−9x^2. ----(B)

在这里，为了使用梯度下降算法寻找函数(A)的局部最小值，他们使用了函数(A)的导数函数，即函数(B)。

回答：

原因在于，因为函数是凹形的（或者如果你在做最大化问题，则是凸形的——这些问题是等价的），你知道它有一个单一的最小值（最大值）。这意味着存在一个单一的点，其梯度等于零。有使用函数本身的技术，但如果你能计算出梯度，你可以更快地收敛，因为你可以认为梯度提供了你离最优点有多远的信息。

除了梯度下降法，还有一种优化方法称为牛顿法，它需要计算二阶导数（在多元优化中称为Hessian矩阵）。这种方法收敛得更快，但需要你能够求出Hessian矩阵的逆，这在参数很多的情况下是不切实际的。因此，有一些方法可以绕过这一点，计算Hessian矩阵的有限记忆近似。这些方法收敛得更快，因为它们利用了梯度曲率的信息：这是一个简单的权衡，你对要优化的函数了解得越多，你找到解决方案的速度就越快。

学技术

为什么使用函数的导数来计算局部最小值而不是实际函数本身？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复