SGD mini batches – 所有mini批次的大小都相同吗?

使用mini批次的随机梯度下降算法通常会将mini批次的大小或数量作为参数。

现在我想知道的是,所有mini批次是否需要大小完全相同?

以MNIST数据集(60,000张训练图像)为例,假设mini批次大小为70。

如果我们采用简单的循环方式,会生成857个大小为70的mini批次(如指定)和一个大小为10的mini批次。

现在的问题是,使用这种方法会有一个mini批次比其他批次小(最坏情况:mini批次大小为1),这是否会对网络在几乎整个训练过程中学到的权重和偏置产生重大影响?


回答:

不,mini批次不必大小相同。通常为了效率考虑,它们的大小是恒定的(这样就不需要重新分配内存/调整张量大小)。在实践中,你甚至可以在每次迭代中抽样批次的大小。

然而,批次的大小确实会产生影响。很难说哪种大小是最好的,但使用较小或较大的批次大小可能会导致不同的解决方案(并且总是不同的收敛速度)。这是因为处理更随机的运动(小批次)与平滑的更新(好的梯度估计器)之间的效果。特别是,使用某种预定义的大小分布进行随机批次大小,可以同时利用这两种效果(但调整这种分布所花费的时间可能不值得)。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注