Home IT技术为什么门控激活函数（在Wavenet中使用）比ReLU效果更好？

为什么门控激活函数（在Wavenet中使用）比ReLU效果更好？

IT技术 xiaolong · 2025年5月24日 · 0 Comment

我最近在阅读Wavenet和PixelCNN的论文，在这两篇论文中，他们都提到使用门控激活函数比ReLU效果更好。但在两种情况下，他们都没有解释为什么会这样。

我在其他平台（如r/machinelearning）上问过这个问题，但到目前为止还没有收到任何回复。难道是因为他们只是碰巧尝试了这种替代方法，结果发现效果很好吗？

参考函数：y = tanh(Wk,f ∗ x) . σ(Wk,g ∗ x)

卷积的sigmoid和tanh之间的逐元素乘法。

回答：

我做了一些调查，并与一位朋友进一步讨论，他向我推荐了Dauphin等人关于“带门控卷积网络的语言建模”的论文。在论文的第3节中，他对这个话题提供了一个很好的解释：

LSTM通过由输入和遗忘门控制的独立单元实现长期记忆。这允许信息在可能的多个时间步中不受阻碍地流动。没有这些门，信息很容易在每个时间步的变换中消失。

相比之下，卷积网络不会遭受相同类型的梯度消失问题，我们通过实验发现它们不需要遗忘门。因此，我们考虑仅具备输出门的模型，这允许网络控制哪些信息应该通过层级结构传播。

换句话说，他们采用了门的概念，并将其应用于顺序卷积层，以控制允许哪些类型的信息通过，显然这比使用ReLU效果更好。

编辑：但它为什么效果更好，我仍然不知道，如果有人能给我一个哪怕是略显直观的答案，我将不胜感激，我又多找了一些资料，显然我们仍然基于试错来判断。

activation-function deep-learning machine-learning neural-network

发表回复取消回复