Home IT技术为什么卷积神经网络通常有一个stem？

为什么卷积神经网络通常有一个stem？

IT技术 xiaolong · 2025年4月5日 · 0 Comment

大多数尖端/著名的CNN架构都有一个stem，这个部分不使用像网络其他部分那样的模块，相反，大多数架构在stem中使用普通的Conv2d或池化操作，而不使用特殊的模块/层，如快捷连接（残差）、倒置残差、幽灵卷积等。
为什么会这样？这背后有实验/理论/论文/直觉的支持吗？

stem的例子：
经典ResNet：Conv2d+MaxPool：

技巧集ResNet-C：3*Conv2d+MaxPool，
尽管2个Conv2d可以形成如[图2]所示的经典残差块的完全相同结构，但stem中没有快捷连接：

还有许多其他例子也有类似的观察结果，例如EfficientNet、MobileNet、GhostNet、SE-Net等。

引用：
https://arxiv.org/abs/1812.01187
https://arxiv.org/abs/1512.03385

回答：

据我所知，这样做的目的是为了使用步长卷积快速下采样输入图像，这些卷积的核大小相当大（5×5或7×7），这样后续的层就可以在计算复杂度大大降低的情况下有效地工作。

artificial-intelligence computer-vision conv-neural-network deep-learning

发表回复取消回复