Home IT技术关于激活函数在CNN中对计算时间的影响

关于激活函数在CNN中对计算时间的影响

IT技术 xiaolong · 2025年4月15日 · 0 Comment

目前我在阅读以下论文：“SqueezeNet: AlexNet级别的准确率，参数减少50倍，模型大小<0.5 MB”。

在该论文的4.2.3节（激活函数层），有如下陈述：

激活函数的影响几乎完全局限于训练阶段，对推理过程中的计算需求影响不大。

我对激活函数的影响理解如下：激活函数（如ReLU等）在卷积操作处理后应用于特征图的每个单元。我认为此时在训练模式和推理模式中的处理是相同的。为什么可以说它对训练有很大影响，而对推理影响不大呢？

能有人解释一下吗？

回答：

我认为此时在训练模式和推理模式中的处理是相同的。

你说的没错，激活函数的处理时间是相同的。但在训练时间和测试时间之间仍然存在很大差异：

训练时间涉及在多个轮次中进行前向传递，每个轮次通常包括整个训练数据集。即使是小数据集，如MNIST（包含60000张训练图像），这也意味着数万次的调用。确切的运行时影响取决于许多因素，例如GPU允许大量并行计算。但无论如何，这比测试时的调用次数大几个数量级，通常在测试时只处理一个批次，且只处理一次。
除此之外，你不应该忘记反向传递，在反向传递中，激活函数的导数也需要在同样数量的轮次中应用。对于某些激活函数，导数的计算可能显著更加昂贵，例如elu与relu相比（elu有需要更新的可学习参数）。

最后，你可能会忽略推理时5%的减速，因为神经网络的推理速度已经非常快了。但你可能会关心额外几分钟到几小时的训练时间，特别是如果你需要对多个模型进行交叉验证或超参数调优时。

activation-function conv-neural-network deep-learning machine-learning neural-network

发表回复取消回复