正如许多论文所指出的,为了获得更好的神经网络学习曲线,数据集最好进行归一化处理,使其值符合高斯分布曲线。
这种方法仅适用于使用sigmoid函数作为压缩函数的情况吗?如果不是,那么对于tanh压缩函数,最佳的偏差是多少?
回答:
这种方法仅适用于使用sigmoid函数作为压缩函数的情况吗?
不,激活分布显然取决于激活函数,这就是为什么特别是对于基于sigmoid和relu的神经网络,初始化技术是不同的。请参见Xavier和He初始化之间的区别在这个问题中。输入分布也是如此。
如果不是,那么对于tanh压缩函数,最佳的偏差是多少?
但是tanh
是经过缩放和移位的sigmoid
:
tanh(x) = 2⋅sigmoid(2x) - 1
因此,如果激活值在sigmoid激活函数下是正态分布的,那么在tanh函数下它们仍然是正态分布的。只是标准差会缩放,均值会移位。因此,相同的输入分布对tanh也适用。如果你希望获得相同的Gaussian方差,你可以将输入缩放sqrt(2)
,但这实际上并不重要。