关于Pytorch中奇数图像尺寸的问题

我目前正在构建一个2通道（也称为双通道）的卷积神经网络，用于测量两张（二值）图像之间的相似性。

我遇到的问题如下：

我的输入图像尺寸为40 x 50，经过一次卷积和一次池化层（例如）后，输出尺寸变为18 x 23。那么，如何进行更多的池化操作而不导致非整数的输出尺寸呢？例如，对18 x 23的图像进行2 x 2的池化，输出尺寸将是9 x 11.5。

我似乎找不到合适的卷积核尺寸来避免这个问题，我认为这是由于原始输入图像尺寸不是2的幂。例如，64 x 64大小的输入图像在使用正确的填充尺寸时不会有这个问题，等等。

任何帮助都将不胜感激。

回答：

关于你的问题：

那么，如何进行更多的池化操作而不导致非整数的输出尺寸呢？

假设你有以下情况：

如果你应用池化操作（我将在这个例子中使用MaxPooling，并且我假设你指的是基于你预期输出形状的2×2池化，stride=2）：

p = nn.MaxPool2d(2, stride=2)y = p(x)print(y.shape)# torch.Size([1, 1, 2, 1])print(y)# tensor([[[[0.5266],#           [0.8600]]]])

如果你希望得到[1, 1, 2, 2]，你可以设置MaxPooling的ceil_mode=True：

p = nn.MaxPool2d(2, stride=2, ceil_mode=True)y = p(x)print(y.shape)# torch.Size([1, 1, 2, 2])print(y)# tensor([[[[0.5266, 0.5252],#           [0.8600, 0.8912]]]])

你也可以填充体数据以达到相同的效果（在这里我假设体数据的最小值为0，就像经过ReLU处理后）：

p = nn.MaxPool2d(2, stride=2)y = p(F.pad(x, (0, 1), "constant", 0))print(y.shape)# torch.Size([1, 1, 2, 2])print(y)# tensor([[[[0.5266, 0.5252],#           [0.8600, 0.8912]]]])

关于：

我似乎找不到合适的卷积核尺寸来避免这个问题，我认为这是由于原始输入图像尺寸不是2的幂。

嗯，如果你想使用池化操作将输入尺寸减半（例如，kernel=2和stride=2的MaxPooling），那么使用2的幂形状的输入是相当方便的（毕竟，你可以进行很多这样的/2操作）。然而，这不是必需的。你可以更改池化的步长，你可以始终使用ceil_mode=True进行池化，你也可以进行不对称填充，还有许多其他方法。这些都是你在构建模型时需要做出的决定 🙂

学技术

关于Pytorch中奇数图像尺寸的问题

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复