卷积神经网络如何处理通道

我查看了很多关于卷积神经网络(CNN)如何处理多通道(例如RGB图像中的3个通道)的解释,但仍然感到困惑。

当一个5x5x3的滤波器(例如)应用于RGB图像的一个区域时,具体发生了什么?它实际上是针对每个通道分别进行的3个不同的二维卷积(具有独立的权重)吗?然后将结果简单地相加以产生传递到下一层的最终输出?还是一个真正的三维卷积?


回答:

enter image description here

这张图片来自Andrew Ng的deeplearning.ai课程。6 x 6 x 3 – 其中3对应于3个颜色通道,6 x 6是图像的高度和宽度。在卷积步骤中,我们用3 x 3 x 3的滤波器/核对输入图像进行卷积。输入图像和滤波器都将有3层。(通常输入图像和滤波器的层数相同)。输出将是4 x 4 x 1。3 x 3 x 3给你27个特征/参数,你将这些参数与对应的红色、绿色和蓝色通道相乘。最后将所有这些数字相加,得到4 x 4输出图像中[0,0]的值。现在移动输入图像的黄色立方体,向右滑动一个方块,当它到达右端时,将立方体向下滑动一行,继续你的乘法运算以填充4 x 4的输出。我建议你拿一张纸和一支铅笔,在输入和核的所有立方体中填写随机值,然后进行乘法运算。

欲了解更多详情,请观看YouTube上的这些讲座。https://www.youtube.com/watch?v=KTB_OFoAQcc&index=6&list=PLkDaE6sCZn6Gl29AoE31iwdVwSG-KnDzF

https://www.youtube.com/watch?v=7g8jpK4llkc&t=1s

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注