Sigmoid函数及其在人工神经网络中的导数

我正在按照教程制作人工神经网络。在教程中，sigmoid函数和其导数dsigmoid的定义如下：

sigmoid(x) = tanh(x)dsigmoid(x) = 1-x*x

然而，根据定义，dsigmoid应该是sigmoid函数的导数，因此应该是（http://www.derivative-calculator.net/#expr=tanh%28x%29）：

dsigmoid(x) = sech(x)*sech(x)

当使用1-x*x时，训练过程能够收敛，但当我使用数学上正确的导数，即sech的平方，训练过程却无法收敛。

问题是为什么1-x*x能够工作（模型训练到正确的权重），而数学上的导数sech²(x)却不能（在最大迭代次数后得到的模型拥有错误的权重）？

回答：

在第一组公式中，导数是作为函数值的函数来表达的，也就是说

tanh'(x) = 1-tanh(x)^2 = dsigmoid(sigmoid(f))

由于现有代码可能已经这样使用和实现了，如果你用“正确”的公式替换它，你将得到错误的导数。

学技术