pytorch – loss.backward() 和 optimizer.step() 之间的联系

optimizer 和 loss 之间是否有明确的连接？

如果没有像 optimizer.step(loss) 这样的调用，优化器如何知道从哪里获取损失的梯度？

-更多背景-

当我最小化损失时，我不需要将梯度传递给优化器。

loss.backward() # 反向传播
optimizer.step() # 梯度下降

回答：

在不深入探讨 pytorch 内部实现的情况下，我可以提供一个简单的答案：

请记住，在初始化 optimizer 时，你明确地告诉它应该更新模型的哪些参数（张量）。一旦你对损失调用 backward()，梯度会被张量本身“存储”（它们有一个 grad 和一个 requires_grad 属性）。在计算模型中所有张量的梯度后，调用 optimizer.step() 会使优化器遍历它应该更新的所有参数（张量），并使用它们内部存储的 grad 来更新它们的值。

关于计算图和 pytorch 张量中存储的额外“grad”信息的更多信息，可以在这个回答中找到。

优化器通过参数引用有时会引起麻烦，例如，当模型在初始化优化器之后移动到 GPU 上时。请确保在构建优化器之前完成模型的设置。有关更多详细信息，请参见这个回答。

学技术

pytorch – loss.backward() 和 optimizer.step() 之间的联系

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复