在使用PyTorch higher库进行MAML时，什么时候应该调用.eval()和.train()？

我在查看omniglot maml示例时发现，他们在测试代码的开头使用了net.train()。这似乎是个错误，因为这意味着在元测试时每个任务的统计数据会被共享：

def test(db, net, device, epoch, log):    # 重要的是，在我们的测试过程中，我们*不*对模型进行微调，以简化操作。    # 大多数使用MAML进行此任务的研究论文在此处会进行额外的微调阶段，    # 如果您将此代码用于研究，应添加该阶段。    net.train()    n_test_iter = db.x_test.shape[0] // db.batchsz    qry_losses = []    qry_accs = []    for batch_idx in range(n_test_iter):        x_spt, y_spt, x_qry, y_qry = db.next('test')        task_num, setsz, c_, h, w = x_spt.size()        querysz = x_qry.size(1)        # TODO: 或许可以将此部分抽取为一个独立的模块，        # 这样就不必在`train`和`test`之间重复。        n_inner_iter = 5        inner_opt = torch.optim.SGD(net.parameters(), lr=1e-1)        for i in range(task_num):            with higher.innerloop_ctx(net, inner_opt, track_higher_grads=False) as (fnet, diffopt):                # 通过对模型参数进行梯度步长来优化支持集的可能性。                # 这将模型的元参数适应于任务。                for _ in range(n_inner_iter):                    spt_logits = fnet(x_spt[i])                    spt_loss = F.cross_entropy(spt_logits, y_spt[i])                    diffopt.step(spt_loss)                # 这些参数引发的查询损失和准确率。                qry_logits = fnet(x_qry[i]).detach()                qry_loss = F.cross_entropy(                    qry_logits, y_qry[i], reduction='none')                qry_losses.append(qry_loss.detach())                qry_accs.append(                    (qry_logits.argmax(dim=1) == y_qry[i]).detach())    qry_losses = torch.cat(qry_losses).mean().item()    qry_accs = 100. * torch.cat(qry_accs).float().mean().item()    print(        f'[Epoch {epoch+1:.2f}] Test Loss: {qry_losses:.2f} | Acc: {qry_accs:.2f}'    )    log.append({        'epoch': epoch + 1,        'loss': qry_losses,        'acc': qry_accs,        'mode': 'test',        'time': time.time(),    })

然而，每当我使用eval时，我的MAML模型就会发散（尽管我的测试是在mini-imagenet上进行的）：

>>maml_old (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5939, grad_fn=<NormBackward1>)>maml_old (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>>maml_old (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5940, grad_fn=<NormBackward1>)>maml_old (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>>maml_old (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5940, grad_fn=<NormBackward1>)>maml_old (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>>maml_old (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5940, grad_fn=<NormBackward1>)>maml_old (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>>maml_old (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5941, grad_fn=<NormBackward1>)>maml_old (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>>maml_old (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5940, grad_fn=<NormBackward1>)>maml_old (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>>maml_old (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5942, grad_fn=<NormBackward1>)>maml_old (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>>maml_old (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5940, grad_fn=<NormBackward1>)>maml_old (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>>maml_old (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5940, grad_fn=<NormBackward1>)>maml_old (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>>maml_old (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5939, grad_fn=<NormBackward1>)eval_loss=0.9859228551387786, eval_acc=0.5907692521810531args.meta_learner.lr_inner=0.01==== in forward2>maml_new (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>maml_new (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(171440.6875, grad_fn=<NormBackward1>)>maml_new (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>maml_new (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(208426.0156, grad_fn=<NormBackward1>)>maml_new (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>maml_new (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(17067344., grad_fn=<NormBackward1>)>maml_new (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>maml_new (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(40371.8125, grad_fn=<NormBackward1>)>maml_new (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>maml_new (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(1.0911e+11, grad_fn=<NormBackward1>)>maml_new (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>maml_new (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(21.3515, grad_fn=<NormBackward1>)>maml_new (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>maml_new (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(5.4257e+13, grad_fn=<NormBackward1>)>maml_new (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>maml_new (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(128.9109, grad_fn=<NormBackward1>)>maml_new (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>maml_new (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(3994.7734, grad_fn=<NormBackward1>)>maml_new (before inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(9.5937, grad_fn=<NormBackward1>)>maml_new (after inner adapt): fmodel.model.features.conv1.weight.norm(2)=tensor(1682896., grad_fn=<NormBackward1>)eval_loss_sanity=nan, eval_acc_santiy=0.20000000298023224

那么，应该采取什么措施来避免这种发散现象呢？

注意事项：

重新训练非常昂贵。对我来说，使用MAML训练一个5层CNN需要18天。分布式解决方案在这里会非常有帮助 https://github.com/learnables/learn2learn/issues/170
或许在训练过程中仅使用train（即使在训练过程中进行评估可能是个好主意，以便将批次统计数据保存到检查点中）
或者下次从一开始就使用批次统计数据进行训练

学技术

在使用PyTorch higher库进行MAML时，什么时候应该调用.eval()和.train()？

那么，应该采取什么措施来避免这种发散现象呢？

发表回复取消回复

那么，应该采取什么措施来避免这种发散现象呢？

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复