Home IT技术如何在PyTorch中进行梯度裁剪？

如何在PyTorch中进行梯度裁剪？

IT技术 xiaolong · 2025年5月23日 · 0 Comment

在PyTorch中进行梯度裁剪的正确方法是什么？

我遇到了梯度爆炸的问题。

回答：

clip_grad_norm（实际上已被弃用，推荐使用clip_grad_norm_，因为后者遵循了更一致的语法，即在进行原地修改时使用后缀_）通过连接传递给函数的所有参数来裁剪整体梯度的范数，正如文档中所示：

范数是通过将所有梯度视为连接成一个单一向量来计算的。梯度会被原地修改。

从你的例子来看，你可能需要使用clip_grad_value_，它具有相似的语法，并且同样会原地修改梯度：

clip_grad_value_(model.parameters(), clip_value)

另一种选择是注册一个后向钩子。这个钩子以当前梯度作为输入，并可以返回一个张量，该张量将替代之前的梯度，即对其进行修改。一旦注册了钩子，每次计算完梯度后都会调用这个钩子，因此无需手动裁剪：

for p in model.parameters():    p.register_hook(lambda grad: torch.clamp(grad, -clip_value, clip_value))

deep-learning gradient-descent machine-learning python pytorch

发表回复取消回复