输出神经元的误差

在具有反向传播的神经网络中，完成前向传递后，下一步是计算输出神经元的误差。下图显示输出神经元的误差为 δ = z - y。反向传播的完整文本可在此处找到这里。我理解这部分内容。

如果神经元的激活函数是Sigmoid函数，我在另一篇文章中读到，误差不应简单地计算为差异，而是应为 δ = y*(1-y)*(z - y)

能否有熟悉这方面的人解释一下背后的原理？为什么使用Sigmoid激活函数会导致误差计算变为：δ = y*(1-y)*(z - y) 而不再是：δ = (z - y)？

我找到的唯一类似问题是这个，然而提问者并未询问为什么误差是这样计算的。

回答：

忘记那些时髦的名字如反向传播，它不过是简单的数学优化任务。优化成本函数的一种可能方法是使用梯度下降迭代算法，要使用它，你需要知道目标函数的导数。即你需要知道如何调整你的参数来最小化某个函数。幸运的是，导数在某种意义上显示了如果你改变某个参数，你的函数会如何变化。

在你的情况下，你有两个不同的优化任务。

第一个目标函数是索引i表示数据集中的特定样本。

但如果你在你的假设中加入Sigmoid函数

你应该根据链式法则计算你的导数，因为Sigmoid函数是非线性的。

所以：

学技术