如何知道应该使用哪种梯度下降法?

我了解三种梯度下降法,但我的问题是,我无法确定在我的模型中应该使用哪一种。我已经阅读了很多资料,但还是没有弄明白。

没有代码,这只是一个问题。


回答:

梯度下降的类型:

  • 批量梯度下降:它在每次梯度下降迭代中处理所有训练样本。然而,当训练样本数量很大时,这种方法计算成本高昂,通常不被推荐使用。
  • 随机梯度下降:它在每次迭代中处理一个训练样本。在这里,参数在每次迭代后都会被更新。这种方法比批量梯度下降方法更快。但是,当训练样本数量很大时,它会通过增加迭代次数增加系统开销。
  • 小批量梯度下降:小批量算法是最受欢迎和广泛使用的算法,它使用一批m个训练样本来产生精确且快速的结果。在小批量算法中,我们不是使用完整的数据集,而是在每次迭代中使用一组m个训练样本,称为batch,来计算成本函数的梯度。常见的小批量大小范围在50256之间,但根据不同的应用可能会有所不同。

除了梯度下降的变体外,还有其他各种优化算法,如adam、rmsprop等。

我们应该使用哪种优化器?

这个问题是要为我们的神经网络模型选择最佳的优化器,以便快速收敛并正确学习,并调整内部参数以最小化损失函数。

Adam在实践中表现良好,并且优于其他自适应技术。

如果你的输入数据是稀疏的,那么像SGDNAGmomentum这样的方法表现较差。对于稀疏数据集,应该使用自适应学习率方法之一。另一个好处是我们不需要调整学习率,但很可能使用默认值就能获得最佳结果。

如果想要快速收敛并训练一个深度神经网络模型或一个高度复杂的神经网络,那么应该使用Adam或其他任何自适应学习率技术,因为它们优于所有其他优化算法。

希望这能帮助你决定在你的模型中使用哪一种方法。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注