我有一个初学者问题,但我无法解决这个问题。
输入图像为512*512。在输入图像上执行了两个独立的操作并进行了拼接:
-
步长为2的3*3卷积,具有13个滤波器
-
最大池化操作
拼接后结果似乎有16个特征图,我不太确定这是怎么回事?
任何建议、答案或阅读材料都将非常有帮助。
回答:
如果这些层是依次应用的,输出不会有16
个特征图,而是13
个。但如果它们是并行进行的,如果输入通道数C=3
,这是完全可能的。
让我们逐层分析:
- 输入是
(B, 512, 512, 3)
,其中B
是批量大小。 - 卷积层将此输入张量转换为
(B, 256, 256, 13)
或(B, 255, 255, 13)
,这取决于使用的填充(参见此问题中的公式:卷积后矩阵大小的计算公式)。 - 最大池化改变空间维度,就像卷积层一样,但它不改变批量大小和通道数。因此输出将是
(B, 256, 256, 3)
或(B, 255, 255, 3)
。 - 假设卷积和最大池化层具有相同的参数,并且拼接是沿着第4轴进行的,拼接结果将是
(B, 256, 256, 16)
或(B, 255, 255, 16)
,因为16=13+3
。