我了解三种梯度下降法,但我的问题是,我无法确定在我的模型中应该使用哪一种。我已经阅读了很多资料,但还是没有弄明白。
没有代码,这只是一个问题。
回答:
梯度下降的类型:
- 批量梯度下降:它在每次梯度下降迭代中处理所有训练样本。然而,当训练样本数量很大时,这种方法计算成本高昂,通常不被推荐使用。
- 随机梯度下降:它在每次迭代中处理一个训练样本。在这里,参数在每次迭代后都会被更新。这种方法比批量梯度下降方法更快。但是,当训练样本数量很大时,它会通过增加迭代次数增加系统开销。
- 小批量梯度下降:小批量算法是最受欢迎和广泛使用的算法,它使用一批
m
个训练样本来产生精确且快速的结果。在小批量算法中,我们不是使用完整的数据集,而是在每次迭代中使用一组m
个训练样本,称为batch
,来计算成本函数的梯度。常见的小批量大小范围在50
到256
之间,但根据不同的应用可能会有所不同。
除了梯度下降的变体外,还有其他各种优化算法,如adam、rmsprop等。
我们应该使用哪种优化器?
这个问题是要为我们的神经网络模型选择最佳的优化器,以便快速收敛并正确学习,并调整内部参数以最小化损失函数。
Adam在实践中表现良好,并且优于其他自适应技术。
如果你的输入数据是稀疏的,那么像SGD
、NAG
和momentum
这样的方法表现较差。对于稀疏数据集,应该使用自适应学习率方法之一。另一个好处是我们不需要调整学习率,但很可能使用默认值就能获得最佳结果。
如果想要快速收敛并训练一个深度神经网络模型或一个高度复杂的神经网络,那么应该使用Adam
或其他任何自适应学习率技术,因为它们优于所有其他优化算法。
希望这能帮助你决定在你的模型中使用哪一种方法。