PyTorch优化器：AdamW与带权重衰减的Adam

torch.optim.Adam(weight_decay=0.01) 和 torch.optim.AdamW(weight_decay=0.01) 之间有什么区别？

文档链接：torch.optim。

回答：

是的，Adam和AdamW的权重衰减是不同的。

Hutter在他们的论文中（Decoupled Weight Decay Regularization）指出，各个库中Adam的权重衰减实现方式似乎是错误的，并提出了一个简单的解决方法（他们称之为AdamW）。

在Adam中，权重衰减通常是通过将wd*w（这里wd是权重衰减）加到梯度上（第一种情况）来实现的，而不是直接从权重中减去（第二种情况）。

# 第一种：Adam的权重衰减实现（L2正则化）
final_loss = loss + wd * all_weights.pow(2).sum() / 2
# 第二种：在SGD中等同于
w = w - lr * w.grad - lr * wd * w

这些方法在普通的SGD中是相同的，但一旦我们加入动量，或者使用更复杂的优化器如Adam，L2正则化（第一个方程）和权重衰减（第二个方程）就变得不同了。

AdamW遵循第二种方程来实现权重衰减。

在Adam中

weight_decay (float, optional) – 权重衰减（L2惩罚）（默认值：0）

在AdamW中

weight_decay (float, optional) – 权重衰减系数（默认值：1e-2）

更多信息请阅读fastai博客。

学技术