Home IT技术随机梯度下降(SGD)与批量大小为1的对比

随机梯度下降(SGD)与批量大小为1的对比

IT技术 xiaolong · 2025年4月15日 · 0 Comment

随机梯度下降是否基本上是指批量大小为1且随机选择训练行的迷你批量训练？也就是说，它与‘普通’的梯度下降相同，区别仅仅在于训练数据的供给方式？

让我感到困惑的一点是，我看到有人说即使使用SGD也可以提供超过一个数据点，并且可以使用更大的批量，那么这不就变成了‘普通’的迷你批量梯度下降了吗？

回答：

关于优化术语

仅使用一个样本的优化算法有时被称为随机的，正如你所提到的。使用整个训练集的优化算法被称为批量或确定性梯度方法。

用于深度学习的大多数算法介于两者之间，使用多于一个但少于所有训练样本。这些传统上被称为迷你批量或迷你批量随机方法，现在通常简单地称为随机方法。

希望这能使术语更加清晰：

Goodfellow的《深度学习》书第275-276页

gradient-descent machine-learning mini-batch neural-network stochastic

发表回复取消回复