我有一张尺寸为WxHx3
的图像,需要将其分割成21个类别。通过一些卷积神经网络(CNN)层处理后,我得到了W/4 x H/4 x 512
的特征图。我们将最终使用Convolutional
和Deconvolutional
层,并在softmax
层与其标签进行比较。我有两种拓扑结构:
Softmax_loss Softmax_loss ^ ^ | | deconv_layer conv_layer ^ ^ | | conv_layer deconv_layer ^ ^ | |Intermediate_layers Intermediate_layers ^ ^ | | Input Input (1) (2)
哪种拓扑结构更好?我见过这两种结构。第一种在FCN
(用于语义分割的全卷积网络)中使用,第二种在VoxResNet
和UNet
中使用。
回答:
深度学习中没有绝对正确的方法。你通常会尝试不同的方法,哪个效果最好就用哪个。如果你遵循fcn
模型,它的开始是conv->deconv->conv->deconv
。在语义分割中引用最多的论文通常采用conv->deconv
。所以我也会建议使用第一种结构。此外,直觉上,先进行deconv
似乎不太合理。