为什么卷积神经网络通常有一个stem?

大多数尖端/著名的CNN架构都有一个stem,这个部分不使用像网络其他部分那样的模块,相反,大多数架构在stem中使用普通的Conv2d或池化操作,而不使用特殊的模块/层,如快捷连接(残差)、倒置残差、幽灵卷积等。
为什么会这样?这背后有实验/理论/论文/直觉的支持吗?

stem的例子:
经典ResNet:Conv2d+MaxPool:
resnet config

技巧集ResNet-C:3*Conv2d+MaxPool,
尽管2个Conv2d可以形成如[图2]所示的经典残差块的完全相同结构,但stem中没有快捷连接:
resnet-cclassic residual block

还有许多其他例子也有类似的观察结果,例如EfficientNet、MobileNet、GhostNet、SE-Net等。

引用:
https://arxiv.org/abs/1812.01187
https://arxiv.org/abs/1512.03385


回答:

据我所知,这样做的目的是为了使用步长卷积快速下采样输入图像,这些卷积的核大小相当大(5×5或7×7),这样后续的层就可以在计算复杂度大大降低的情况下有效地工作。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注