使用预训练网络（Pytorch）进行分类器所需的输入形状是什么？

我对深度学习、Python 和 Pytorch 还比较陌生，请多包涵！

我正在尝试理解 Pytorch 中的迁移学习，使用两种不同的预训练网络：Vgg11 和 Densenet121。我已经将形状为（3 x 224 x 224）的数据输入到上述网络的“features”部分，输出形状如下：

Vgg11 features 输出形状：512 x 7 x 7

Densenet121 features 输出形状：1024 x 7 x 7

现在，我正在尝试创建自己的分类器来替代预训练的分类器。在检查了两个预训练分类器后，我发现 Vgg11 的第一层如下：

(0): Linear(in_features=25088, out_features=4096, bias=True)

而 Densenet121 的第一层如下：

(classifier): Linear(in_features=1024, out_features=1000, bias=True))

Vgg 的情况可以理解，因为如果将“features”部分的输出展平，你会得到 512 x 7 x 7 = 25,088。

为什么 Densenet 只有 1024 维度呢？如果将它的“features”部分的输出展平，你会得到 1024 x 7 x 7 = 50,176

我是否遗漏了某些步骤？有没有方法可以检查每一层的输入和输出形状，并找出到底发生了什么？

谢谢你。

回答：

如DenseNet 论文中的表1所述，DenseNet-121 使用了一种称为全局平均池化的方法，这是一种极端的池化方式，将维度为 d x h x w 的张量减少到 d x 1 x 1。

学技术