我查看了很多关于卷积神经网络(CNN)如何处理多通道(例如RGB图像中的3个通道)的解释,但仍然感到困惑。
当一个5x5x3的滤波器(例如)应用于RGB图像的一个区域时,具体发生了什么?它实际上是针对每个通道分别进行的3个不同的二维卷积(具有独立的权重)吗?然后将结果简单地相加以产生传递到下一层的最终输出?还是一个真正的三维卷积?
回答:
这张图片来自Andrew Ng的deeplearning.ai课程。6 x 6 x 3 – 其中3对应于3个颜色通道,6 x 6是图像的高度和宽度。在卷积步骤中,我们用3 x 3 x 3的滤波器/核对输入图像进行卷积。输入图像和滤波器都将有3层。(通常输入图像和滤波器的层数相同)。输出将是4 x 4 x 1。3 x 3 x 3给你27个特征/参数,你将这些参数与对应的红色、绿色和蓝色通道相乘。最后将所有这些数字相加,得到4 x 4输出图像中[0,0]的值。现在移动输入图像的黄色立方体,向右滑动一个方块,当它到达右端时,将立方体向下滑动一行,继续你的乘法运算以填充4 x 4的输出。我建议你拿一张纸和一支铅笔,在输入和核的所有立方体中填写随机值,然后进行乘法运算。
欲了解更多详情,请观看YouTube上的这些讲座。https://www.youtube.com/watch?v=KTB_OFoAQcc&index=6&list=PLkDaE6sCZn6Gl29AoE31iwdVwSG-KnDzF