使用mini批次的随机梯度下降算法通常会将mini批次的大小或数量作为参数。
现在我想知道的是,所有mini批次是否需要大小完全相同?
以MNIST数据集(60,000张训练图像)为例,假设mini批次大小为70。
如果我们采用简单的循环方式,会生成857个大小为70的mini批次(如指定)和一个大小为10的mini批次。
现在的问题是,使用这种方法会有一个mini批次比其他批次小(最坏情况:mini批次大小为1),这是否会对网络在几乎整个训练过程中学到的权重和偏置产生重大影响?
回答:
不,mini批次不必大小相同。通常为了效率考虑,它们的大小是恒定的(这样就不需要重新分配内存/调整张量大小)。在实践中,你甚至可以在每次迭代中抽样批次的大小。
然而,批次的大小确实会产生影响。很难说哪种大小是最好的,但使用较小或较大的批次大小可能会导致不同的解决方案(并且总是不同的收敛速度)。这是因为处理更随机的运动(小批次)与平滑的更新(好的梯度估计器)之间的效果。特别是,使用某种预定义的大小分布进行随机批次大小,可以同时利用这两种效果(但调整这种分布所花费的时间可能不值得)。