梯度下降与fminunc的比较

我在尝试运行梯度下降算法,但使用完全相同的数据时,无法得到与Octave内置的fminunc函数相同的结果。

我的代码如下:

%for 5000 iterationsfor iter = 1:5000%%Calculate the cost and the new gradient[cost, grad] = costFunction(initial_theta, X, y);%%Gradient = Old Gradient - (Learning Rate * New Gradient)initial_theta = initial_theta - (alpha * grad);end 

其中,costFunction函数根据给定的示例(X,y)和参数(theta)计算成本和梯度。

Octave内置的fminunc函数同样调用costFunction,并且使用相同的数据,在远少的迭代次数下找到了一个更好的答案。

由于Octave使用了相同的成本函数,我认为costFunction是正确的。

我尝试过降低学习率以避免陷入局部最小值,并增加迭代次数,但成本不再下降,看起来似乎已经找到了最小值,但最终的theta值仍然具有更大的成本,并且精度远不及预期。

即使fminunc使用了更好的算法,梯度下降在足够的迭代次数和较小的学习率下最终应该能找到相同的结果吗?

或者有人能看出我哪里做错了?

感谢所有帮助。


回答:

你的评论是错误的,但算法是好的。

在梯度下降中很容易遇到数值问题,因此我建议进行特征归一化处理。

另外,如果你对学习率不确定,可以尝试动态调整它。类似于这样:

best_cost = Inf;best_theta = initial_theta;alpha = 1;for iter = 1:500  [cost, grad] = costFunction(best_theta, X_reg, y);  if (cost < best_cost)    best_theta = best_theta - alpha * grad;    best_cost = cost;  else    alpha = alpha * 0.99  endend

此外,请记住,不同的答案可能产生相同的决策边界。例如,对于假设h(x) = x(0) + theta(1) * x(1) + theta(2) * x(2),以下这些答案给出了相同的边界:

theta = [5, 10, 10];theta = [10, 20, 20];

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注