如何在PyTorch中知道为哪个模型计算梯度的损失函数?

我不确定PyTorch是如何将损失函数与我想计算的模型联系起来的。损失和模型之间从未有过明确的引用,比如模型参数和优化器之间的引用那样。

例如,假设我想在同一数据集上训练两个网络,因此我想利用一次通过数据集的机会。PyTorch将如何将适当的损失函数与适当的模型联系起来?以下是参考代码:

import torchfrom torch import nn, optimimport torch.nn.functional as Ffrom torchvision import datasets, transformsimport shap# 定义一个归一化数据的变换transform = transforms.Compose([transforms.ToTensor(),                                transforms.Normalize((0.5,), (0.5,)),                              ])# 下载并加载训练数据trainset = datasets.MNIST('~/.pytorch/MNIST_data/', download=True, train=True, transform=transform)trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)model = nn.Sequential(nn.Linear(784, 128),                      nn.ReLU(),                      nn.Linear(128, 64),                      nn.ReLU(),                      nn.Linear(64, 10),                      nn.LogSoftmax(dim=1))model2 = nn.Sequential(nn.Linear(784, 128),                      nn.ReLU(),                      nn.Linear(128, 10),                      nn.LogSoftmax(dim=1))# 定义损失函数criterion = nn.NLLLoss()criterion2 = nn.NLLLoss()optimizer = optim.SGD(model.parameters(), lr=0.003)optimizer2 = optim.SGD(model2.parameters(), lr=0.003)epochs = 5for e in range(epochs):    running_loss = 0    running_loss_2 = 0    for images, labels in trainloader:        # 将MNIST图像展平为784长的向量        images = images.view(images.shape[0], -1) # batch_size x total_pixels        # 训练过程        optimizer.zero_grad()        optimizer2.zero_grad()        output = model(images)        loss = criterion(output, labels)        loss.backward()        optimizer.step()        output2 = model2(images)        loss2 = criterion2(output2, labels)        loss2.backward()        optimizer2.step()        running_loss += loss.item()        running_loss_2 += loss2.item()    print(f"训练损失 1: {running_loss/len(trainloader)}")    print(f"训练损失 2: {running_loss_2/len(trainloader)}")    print()

那么,再次问,PyTorch是如何知道在调用loss.backward()loss2.backward()时为适当的模型计算适当的梯度的?


回答:

每当你使用模型参数(或任何torch.tensor,其属性requires_grad==True)执行前向操作时,PyTorch会构建一个计算图。当你在图中的后代上操作时,图会被扩展。在你的例子中,你有一个名为modelnn.module,它将有一些可训练的model.parameters(),所以当你执行前向操作时,PyTorch会从你的model.parameters()构建图一直到损失。图在后向传递期间被反向遍历,以将梯度传播回参数。对于你代码中的loss,图形大致如下:

model.parameters() --> [模型中的中间变量] -->  output --> loss                                  ^                                        ^                                  |                                        |                               images                                     labels

当你调用loss.backward()时,PyTorch会反向遍历这个图,以到达所有可训练的参数(在这种情况下只有model.parameters()),并为每个参数更新param.gradoptimizer然后依赖于后向传递期间收集的信息来更新参数。对于loss2,情况类似。

官方PyTorch教程是获取更多深入信息的好资源。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注