我在学习深马尔可夫模型的教程,其中他们试图学习多声音乐数据集。教程的链接是:
https://pyro.ai/examples/dmm.html
该模型使用神经网络参数化转换和发射,并在变分推断部分使用RNN将可观察的’x’映射到潜在空间。为了确保他们的模型在学习,他们尝试最大化ELBO或最小化负ELBO。他们将负ELBO称为NLL。到目前为止,我理解他们在做什么。然而,下一步让我感到困惑。一旦他们有了NLL,他们将其除以序列长度的总和。
times = [time.time()]for epoch in range(args.num_epochs): # 用于估计当前epoch负对数似然度的累加器
# (或者说是负ELBO)
epoch_nll = 0.0 # 为当前epoch准备mini-batch子采样索引
shuffled_indices = np.arange(N_train_data) np.random.shuffle(shuffled_indices) # 处理每个mini-batch;这是我们进行梯度步骤的地方
for which_mini_batch in range(N_mini_batches): epoch_nll += process_minibatch(epoch, which_mini_batch, shuffled_indices) # 报告训练诊断信息
times.append(time.time()) epoch_time = times[-1] - times[-2] log("[training epoch %04d] %.4f \t\t\t\t(dt = %.3f sec)" % (epoch, epoch_nll / N_train_time_slices, epoch_time))
我不太理解他们为什么要这样做。能解释一下吗?他们在这里是在做平均吗?欢迎提供见解。
回答:
在教程中,通过优化过程,他们试图减少损失,并最终希望将其与教程中的参考[1]进行比较。
“最后我们报告一些诊断信息。请注意,我们通过训练集中的总时间片数来标准化损失(这使我们能够与参考[1]进行比较)。”
这是您提供的教程中的内容。
基本上,损失是针对所有mini-batch计算的,他们对其进行标准化,使得最终损失是他们最初采用的整个训练数据序列长度上的损失。
当我们运行代码时,我们可以在每次epoch后的诊断报告中看到整体损失,这些报告由日志生成。