随机梯度下降的成本函数是针对所有行计算的还是仅针对迭代的行计算？

在随机梯度下降中，我想了解的是在转到下一行之前更新参数时，是否需要对所有行计算成本，还是只对下一行计算成本然后再更新参数？

回答：

在随机梯度下降中，你使用批次来更新参数。如果你的训练集有 N 个样本（=行），每次参数更新时，你只使用其中的 B 个，其中 B<=N。这些 B 个样本应该在每次参数更新迭代中从 N 个样本中随机选择。（随机选择的方式可以是有放回抽样、无放回抽样，或者提前打乱训练集）。因此，每次你使用 B 个样本来计算成本的梯度。（注意，你实际上不需要计算成本本身 – 只需要计算其梯度）。B 特别可以等于 N，也可以等于 1（这被称为在线学习）。

此外，有时你可能希望在优化过程中查看一些学习指标。例如，你可能希望偶尔查看整个训练集上的成本值（这有助于终止条件），或者查看整个验证集上的成本值（例如，当监控以确保不发生过拟合时）。在这些情况下，你可能需要在整个集合上计算成本（而不是梯度）。

学技术

随机梯度下降的成本函数是针对所有行计算的还是仅针对迭代的行计算？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复