均方误差是机器学习中常用的成本函数:
(1/n) * sum(y - pred)**2
基本上,由于整个表达式是平方的,所以减法项的顺序并不重要。
但是,如果我们对这个函数进行微分,它将不再是平方形式:
2 * (y - pred)
对于神经网络来说,顺序会有所不同吗?
在大多数情况下,颠倒y
和pred
的顺序会改变结果的符号。由于我们使用结果来计算权重的斜率 – 这会影响神经网络的收敛方式吗?
回答:
实际上,
和
所以它们是相同的。
(我假设y_i
是网络输出而进行微分,当然,如果你对\hat{y}_i
进行微分,同样成立。)