如果一个层的prelu权重接近1,而在其他层中它们接近0,如何理解这些prelu权重?
关于prelu的文献不多,任何帮助都将非常有用!
回答:
PRelu的公式是这个:
如你所见,如果a
被学习为接近0,那么f(x)
几乎等于普通的relu,来自负激活的梯度不会改变网络。简单来说,网络并不“想”调整任何方向上的非活跃神经元。实际上,这也意味着你可以通过在这个层使用relu来加速训练。这种非线性确实很重要。
相反,当a
大约为1时,f(x)
几乎等于x
,即它就像没有非线性一样。这意味着这一层可能是多余的,网络有足够的自由度在没有它的情况下做出决策边界。