用于特征降维的1×1卷积配置

我在深度网络中使用1×1卷积来将特征 x 从 Bx2CxHxW 降维到 BxCxHxW。我有三个选项：

x -> Conv (1×1) -> Batchnorm–>ReLU。代码将是 output = ReLU(BN(Conv(x)))。参考 resnet
x -> BN -> ReLU-> Conv。所以代码将是 output = Conv(ReLU(BN(x)))。参考 densenet
x-> Conv。代码是 output = Conv(x)

哪一个最常用于特征降维？为什么？

回答：

由于你将要端到端地训练你的网络，无论你使用什么配置，权重都会被训练以适应它们。

BatchNorm?
我猜你需要问自己的第一个问题是你是否想使用 BatchNorm？如果你的网络很深，并且你担心协变量偏移，那么你可能应该使用 BatchNorm —— 这样就排除了第三个选项。

先使用BatchNorm?
如果你的 x 是另一个 conv 层的输出，那么实际上你的第一个和第二个选项之间没有区别：你的网络是一个级联的…-conv–bn–ReLU–conv–BN–ReLU–conv-… 所以这只是将网络人为地分成 conv、bn、relu 函数三元组的划分，而对于最开始和最后的函数，你可以随意分割。另外，由于批量归一化是一种线性操作（缩放 + 偏置），它可以被“折叠”到相邻的 conv 层中而不改变网络，因此你基本上剩下的是 conv–relu 对。
所以，你强调的头两个选项之间并没有太大区别。

还有什么需要考虑的？
当改变特征维度时，你真的需要 ReLU 吗？你可以将降维视为线性映射——将映射到到 x 的权重分解为一个较低秩的矩阵，最终映射到 c 维空间而不是 2c 空间。如果你考虑线性映射，那么你可以完全省略 ReLU。
参见 fast RCNN SVD trick 作为一个例子。

学技术

用于特征降维的1×1卷积配置

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复