如何在PyTorch中知道为哪个模型计算梯度的损失函数？

我不确定PyTorch是如何将损失函数与我想计算的模型联系起来的。损失和模型之间从未有过明确的引用，比如模型参数和优化器之间的引用那样。

例如，假设我想在同一数据集上训练两个网络，因此我想利用一次通过数据集的机会。PyTorch将如何将适当的损失函数与适当的模型联系起来？以下是参考代码：

import torchfrom torch import nn, optimimport torch.nn.functional as Ffrom torchvision import datasets, transformsimport shap# 定义一个归一化数据的变换transform = transforms.Compose([transforms.ToTensor(),                                transforms.Normalize((0.5,), (0.5,)),                              ])# 下载并加载训练数据trainset = datasets.MNIST('~/.pytorch/MNIST_data/', download=True, train=True, transform=transform)trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)model = nn.Sequential(nn.Linear(784, 128),                      nn.ReLU(),                      nn.Linear(128, 64),                      nn.ReLU(),                      nn.Linear(64, 10),                      nn.LogSoftmax(dim=1))model2 = nn.Sequential(nn.Linear(784, 128),                      nn.ReLU(),                      nn.Linear(128, 10),                      nn.LogSoftmax(dim=1))# 定义损失函数criterion = nn.NLLLoss()criterion2 = nn.NLLLoss()optimizer = optim.SGD(model.parameters(), lr=0.003)optimizer2 = optim.SGD(model2.parameters(), lr=0.003)epochs = 5for e in range(epochs):    running_loss = 0    running_loss_2 = 0    for images, labels in trainloader:        # 将MNIST图像展平为784长的向量        images = images.view(images.shape[0], -1) # batch_size x total_pixels        # 训练过程        optimizer.zero_grad()        optimizer2.zero_grad()        output = model(images)        loss = criterion(output, labels)        loss.backward()        optimizer.step()        output2 = model2(images)        loss2 = criterion2(output2, labels)        loss2.backward()        optimizer2.step()        running_loss += loss.item()        running_loss_2 += loss2.item()    print(f"训练损失 1: {running_loss/len(trainloader)}")    print(f"训练损失 2: {running_loss_2/len(trainloader)}")    print()

那么，再次问，PyTorch是如何知道在调用loss.backward()和loss2.backward()时为适当的模型计算适当的梯度的？

回答：

每当你使用模型参数（或任何torch.tensor，其属性requires_grad==True）执行前向操作时，PyTorch会构建一个计算图。当你在图中的后代上操作时，图会被扩展。在你的例子中，你有一个名为model的nn.module，它将有一些可训练的model.parameters()，所以当你执行前向操作时，PyTorch会从你的model.parameters()构建图一直到损失。图在后向传递期间被反向遍历，以将梯度传播回参数。对于你代码中的loss，图形大致如下：

model.parameters() --> [模型中的中间变量] -->  output --> loss                                  ^                                        ^                                  |                                        |                               images                                     labels

当你调用loss.backward()时，PyTorch会反向遍历这个图，以到达所有可训练的参数（在这种情况下只有model.parameters()），并为每个参数更新param.grad。optimizer然后依赖于后向传递期间收集的信息来更新参数。对于loss2，情况类似。

官方PyTorch教程是获取更多深入信息的好资源。

学技术

如何在PyTorch中知道为哪个模型计算梯度的损失函数？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复