在Octave中使用”sum”实现多变量梯度下降

我在学习Andrew Ng的机器学习课程，正在尝试理解课程中一个可选练习的多变量梯度下降的向量化实现。

这是相关算法（摘自这里）：

然而，我无法使用sum在Octave中实现这一点，我不确定如何将x(i)假设与y(i)之差的总和乘以所有变量xj(i)。我尝试了以下代码的不同迭代版本，但都没有成功（要么维度不对，要么答案错误）：

theta = theta - alpha/m * sum(X * theta - y) * X;

然而，正确答案对于像我这样的线性代数初学者来说完全不明显（来自这里）：

theta = theta - (alpha/m *  (X * theta-y)' * X)';

在涉及sum的情况下，是否有指导这种转换的经验法则？

如果有的话，是否有上述情况的相反版本（即从基于sum的解决方案转变为一般的乘法解决方案），因为我能够使用sum为单变量的梯度下降提出一个正确的实现（尽管不是很优雅）：

temp0 = theta(1) - (alpha/m * sum(X * theta - y));temp1 = theta(2) - (alpha/m * sum((X * theta - y)' * X(:, 2)));theta(1) = temp0;theta(2) = temp1;

请注意，这仅涉及向量化实现，尽管在SO上有几个关于如何做的问题，但我的问题主要关注于在Octave中使用sum实现该算法。

回答：

一般的“经验法则”如下，如果你遇到类似于

SUM_i f(x_i, y_i, ...) g(a_i, b_i, ...)

的形式，你可以通过

f(x, y, ...)' * g(a, b, ...)

轻松将其向量化（这正是上述所做的），因为这只是一个典型的点积，在数学上（在有限维的欧几里得空间中）看起来像

<A, B> = SUM_i A_i B_i = A'B

因此

(X * theta-y)' * X)

只是

<X * theta-y), X> = <H_theta(X) - y, X> = SUM_i (H_theta(X_i) - y_i) X_i

如你所见，这两种方式都适用，因为这只是点积的数学定义。

学技术