我看到很多教程都这样做,我也一直遵循这种标准做法。
在训练数据的批量大小方面,我们通常会选择从2开始的几何级数的值,比如2、4、8、16、32、64。
即使在选择隐藏层的神经元数量时,我们也以同样的方式分配。这些值可以是2、4、8、16、32、64、128、256、512等。
这背后的核心原因是什么?为什么这样做神经网络的表现会更好?
回答:
如果你使用NVIDIA GPU(深度学习中最流行的选择),卷积和全连接层的通道大小选择主要是为了启用Tensor核心,正如其名,这些核心用于高效的张量和矩阵运算(因此也用于卷积)。引用NVIDIA关于深度学习性能的指南:
选择输入和输出通道的数量能够被8整除以启用Tensor核心
关于批量大小也有类似的指导方针,但这些原因与量化有关。