在多通道图像数据集上训练卷积网络

我正在尝试从头开始实现一个卷积神经网络,但我无法弄清楚如何对具有3个维度的多通道图像(如RGB图像)进行(向量化)操作。通过阅读诸如这篇CS231n教程的文章和教程,很清楚如何为单个输入实现网络,因为输入层将是一个3D矩阵,但在数据集中总是有多个数据点。因此,我无法弄清楚如何为整个数据集实现这些网络的向量化操作。

我已经实现了一个以3D矩阵作为输入的网络,但现在我意识到它不能用于整个数据集,而我必须一次处理一个输入。我真的不知道卷积网络是否对整个数据集进行了向量化处理。但如果是的话,我如何对多通道图像的卷积网络进行向量化?


回答:

如果我正确理解了你的问题,你基本上是在问如何为一个mini-batch实现卷积层,这将是一个4-D张量。

简单来说,你希望独立处理批次中的每个输入,并对每个输入应用卷积。使用循环而不进行向量化编写代码是相当简单的。

向量化实现通常基于im2col技术,该技术基本上将4-D输入张量转换为一个巨大的矩阵并执行矩阵乘法。这里是使用Python中的numpy.lib.stride_tricks实现的前向传递的代码:

import numpy as npdef conv_forward(x, w, b, stride, pad):  N, C, H, W = x.shape  F, _, HH, WW = w.shape  # 检查尺寸  assert (W + 2 * pad - WW) % stride == 0, '宽度不适用'  assert (H + 2 * pad - HH) % stride == 0, '高度不适用'  # 填充输入  p = pad  x_padded = np.pad(x, ((0, 0), (0, 0), (p, p), (p, p)), mode='constant')  # 确定输出尺寸  H += 2 * pad  W += 2 * pad  out_h = (H - HH) / stride + 1  out_w = (W - WW) / stride + 1  # 通过选择巧妙的步长执行im2col操作  shape = (C, HH, WW, N, out_h, out_w)  strides = (H * W, W, 1, C * H * W, stride * W, stride)  strides = x.itemsize * np.array(strides)  x_stride = np.lib.stride_tricks.as_strided(x_padded,                                             shape=shape, strides=strides)  x_cols = np.ascontiguousarray(x_stride)  x_cols.shape = (C * HH * WW, N * out_h * out_w)  # 现在我们所有的卷积都是一个大的矩阵乘法  res = w.reshape(F, -1).dot(x_cols) + b.reshape(-1, 1)  # 重塑输出  res.shape = (F, N, out_h, out_w)  out = res.transpose(1, 0, 2, 3)  out = np.ascontiguousarray(out)  return out

请注意,它使用了线性代数库的一些非平凡特性,这些特性在numpy中已实现,但在你的库中可能没有实现。

顺便说一下,你通常不希望将整个数据集作为一个批次处理 – 将其分成几个批次。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注