大多数尖端/著名的CNN架构都有一个stem,这个部分不使用像网络其他部分那样的模块,相反,大多数架构在stem中使用普通的Conv2d或池化操作,而不使用特殊的模块/层,如快捷连接(残差)、倒置残差、幽灵卷积等。
为什么会这样?这背后有实验/理论/论文/直觉的支持吗?
stem的例子:
经典ResNet:Conv2d+MaxPool:
技巧集ResNet-C:3*Conv2d+MaxPool,
尽管2个Conv2d可以形成如[图2]所示的经典残差块的完全相同结构,但stem中没有快捷连接:
还有许多其他例子也有类似的观察结果,例如EfficientNet、MobileNet、GhostNet、SE-Net等。
引用:
https://arxiv.org/abs/1812.01187
https://arxiv.org/abs/1512.03385
回答:
据我所知,这样做的目的是为了使用步长卷积快速下采样输入图像,这些卷积的核大小相当大(5×5或7×7),这样后续的层就可以在计算复杂度大大降低的情况下有效地工作。