在ResNet的某个阶段,我每张图像有6个特征,即每个样本的形状为1X8X8X6。我希望使用4个大小为1X2X2X1的常数滤波器(DWT)对每个特征进行处理,步长为2,以便在下一层获得24个特征,并使图像变为1X4X4X24。然而,我无法使用tf.nn.conv2d或tf.nn.convolution来实现这个目的,conv2d要求输入的第四维度等于滤波器的第三维度,但我该如何做到这一点?我尝试对第一个滤波器进行操作,但这仍然不起作用:
x_in = np.random.randn(1,8,8,6)kernel_in = np.array([[[[1],[1]],[[1],[1]]]])kernel_in.shapex = tf.constant(x_in, dtype=tf.float32)kernel = tf.constant(kernel_in, dtype=tf.float32)tf.nn.convolution(x, kernel, strides=[1, 1, 1, 1], padding='VALID')
回答:
可以尝试这样做
x_in = np.random.randn(1,8,8,6) # [batch, in_height, in_width, in_channels]kernel_in = np.ones((2,2,6,24)) # [filter_height, filter_width, in_channels, out_channels]x = tf.constant(x_in, dtype=tf.float32)kernel = tf.constant(kernel_in, dtype=tf.float32)tf.nn.conv2d(x, kernel, strides=[1, 2, 2, 1], padding='VALID')# <tf.Tensor: shape=(1, 4, 4, 24), dtype=float32, numpy=....>