为什么在多层感知机中使用tanh作为激活函数？

我个人在研究神经网络的理论，并有一些问题。

在许多书籍和参考资料中，对于隐藏层的激活函数，经常使用双曲正切函数（tanh）。

书中给出的理由非常简单，即tanh函数的线性组合可以描述几乎所有形状的函数，误差在可接受范围内。

但这引发了一个问题。

这是使用tanh函数的真正原因吗？
如果是，那么这是使用tanh函数的唯一原因吗？
如果是，那么tanh函数是唯一能做到这一点的函数吗？
如果不是，那么真正的原因是什么？

我一直卡在这里思考……请帮我走出这个精神上的（？……）陷阱！

回答：

实际上，tanh和逻辑函数都可以使用。它们的作用是将任何实数（[-∞, ∞]）映射到[-1, 1]或[0, 1]之间的数，分别对应tanh和逻辑函数。通过这种方式，可以证明这些函数的组合可以近似任何非线性函数。至于为什么更倾向于使用tanh而不是逻辑函数，是因为前者关于0是对称的，而后者不是。这使得后者更容易导致后续层的饱和，使训练变得更加困难。

学技术

为什么在多层感知机中使用tanh作为激活函数？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复