为什么sigmoid函数会使梯度全部为正或全部为负

在课程cs231n中，当我浏览关于激活函数的笔记时，遇到了关于sigmoid函数的问题。以下是截图:

在我看来，由于梯度dw = x.T dot dout，尽管现在x.T全部为正，但在矩阵乘法之后，为什么dw会全部为正或全部为负？这唯一可能的原因是dout全部为正或全部为负，但为什么会这样呢？

有人能帮我吗？

回答：

如果你仔细阅读这句话，完整的表述是（略作改写）：

如果输入到神经元的数据始终为正，那么在反向传播过程中，权重的梯度将全部为正或全部为负（这取决于整个表达式f的梯度）。

假设f = w^Tx + b。那么相对于权重的梯度是\nabla_w L = (dL/df)(df/dw)。由于dL/df是一个标量，它要么为正要么为负（或者为零，但这不太可能）。另一方面，df/dw = x。因此，如果x全部为正或全部为负，那么df/dw也将全部为正或全部为负。但这意味着\nabla_w L也必须全部为正或全部为负，因为dL/df无法改变df/dw各个元素的符号。因此，梯度的符号是统一的。

学技术

为什么sigmoid函数会使梯度全部为正或全部为负

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复