我不确定PyTorch是如何将损失函数与我想计算的模型联系起来的。损失和模型之间从未有过明确的引用,比如模型参数和优化器之间的引用那样。
例如,假设我想在同一数据集上训练两个网络,因此我想利用一次通过数据集的机会。PyTorch将如何将适当的损失函数与适当的模型联系起来?以下是参考代码:
import torchfrom torch import nn, optimimport torch.nn.functional as Ffrom torchvision import datasets, transformsimport shap# 定义一个归一化数据的变换transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,)), ])# 下载并加载训练数据trainset = datasets.MNIST('~/.pytorch/MNIST_data/', download=True, train=True, transform=transform)trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)model = nn.Sequential(nn.Linear(784, 128), nn.ReLU(), nn.Linear(128, 64), nn.ReLU(), nn.Linear(64, 10), nn.LogSoftmax(dim=1))model2 = nn.Sequential(nn.Linear(784, 128), nn.ReLU(), nn.Linear(128, 10), nn.LogSoftmax(dim=1))# 定义损失函数criterion = nn.NLLLoss()criterion2 = nn.NLLLoss()optimizer = optim.SGD(model.parameters(), lr=0.003)optimizer2 = optim.SGD(model2.parameters(), lr=0.003)epochs = 5for e in range(epochs): running_loss = 0 running_loss_2 = 0 for images, labels in trainloader: # 将MNIST图像展平为784长的向量 images = images.view(images.shape[0], -1) # batch_size x total_pixels # 训练过程 optimizer.zero_grad() optimizer2.zero_grad() output = model(images) loss = criterion(output, labels) loss.backward() optimizer.step() output2 = model2(images) loss2 = criterion2(output2, labels) loss2.backward() optimizer2.step() running_loss += loss.item() running_loss_2 += loss2.item() print(f"训练损失 1: {running_loss/len(trainloader)}") print(f"训练损失 2: {running_loss_2/len(trainloader)}") print()
那么,再次问,PyTorch是如何知道在调用loss.backward()
和loss2.backward()
时为适当的模型计算适当的梯度的?
回答:
每当你使用模型参数(或任何torch.tensor
,其属性requires_grad==True
)执行前向操作时,PyTorch会构建一个计算图。当你在图中的后代上操作时,图会被扩展。在你的例子中,你有一个名为model
的nn.module
,它将有一些可训练的model.parameters()
,所以当你执行前向操作时,PyTorch会从你的model.parameters()
构建图一直到损失。图在后向传递期间被反向遍历,以将梯度传播回参数。对于你代码中的loss
,图形大致如下:
model.parameters() --> [模型中的中间变量] --> output --> loss ^ ^ | | images labels
当你调用loss.backward()
时,PyTorch会反向遍历这个图,以到达所有可训练的参数(在这种情况下只有model.parameters()
),并为每个参数更新param.grad
。optimizer
然后依赖于后向传递期间收集的信息来更新参数。对于loss2
,情况类似。
官方PyTorch教程是获取更多深入信息的好资源。