确实,即使激活函数的值在-10到10之间,似乎也会使网络更加灵活。毕竟,问题不可能仅仅是缺乏合适的公式。请解释我遗漏了什么。
回答:
神经网络中特定节点的激活函数接受前一层的加权和。
如果前一层是一个带有激活函数的层,那么它将只是一个节点和权重的加权和,这些节点和权重已经被前一层每个节点的激活函数所偏移。如果这个激活函数是一个“压缩”函数,比如sigmoid,那么加权和中的所有操作数都会在相加之前被“压缩”成较小的数值。
如果前一层只有几个节点,那么传递给当前带有激活函数的节点的数值很可能是小的。然而,如果前一层的节点数很多,那么这个数值不一定小。
神经网络中激活函数的输入取决于:
- 前一层的大小
- 前一层的激活函数
- 连接这些层的权重值
- 前一层节点的值
因此,传递给激活函数的值实际上可以是任何值。