计算负ELBO – 学技术

我在学习深马尔可夫模型的教程，其中他们试图学习多声音乐数据集。教程的链接是：

该模型使用神经网络参数化转换和发射，并在变分推断部分使用RNN将可观察的’x’映射到潜在空间。为了确保他们的模型在学习，他们尝试最大化ELBO或最小化负ELBO。他们将负ELBO称为NLL。到目前为止，我理解他们在做什么。然而，下一步让我感到困惑。一旦他们有了NLL，他们将其除以序列长度的总和。

times = [time.time()]for epoch in range(args.num_epochs):    # 用于估计当前epoch负对数似然度的累加器
    # (或者说是负ELBO)
    epoch_nll = 0.0    # 为当前epoch准备mini-batch子采样索引
    shuffled_indices = np.arange(N_train_data)    np.random.shuffle(shuffled_indices)    # 处理每个mini-batch；这是我们进行梯度步骤的地方
    for which_mini_batch in range(N_mini_batches):        epoch_nll += process_minibatch(epoch, which_mini_batch, shuffled_indices)    # 报告训练诊断信息
    times.append(time.time())    epoch_time = times[-1] - times[-2]    log("[training epoch %04d]  %.4f \t\t\t\t(dt = %.3f sec)" %        (epoch, epoch_nll / N_train_time_slices, epoch_time))

我不太理解他们为什么要这样做。能解释一下吗？他们在这里是在做平均吗？欢迎提供见解。

回答：

在教程中，通过优化过程，他们试图减少损失，并最终希望将其与教程中的参考[1]进行比较。

“最后我们报告一些诊断信息。请注意，我们通过训练集中的总时间片数来标准化损失（这使我们能够与参考[1]进行比较）。”

这是您提供的教程中的内容。

基本上，损失是针对所有mini-batch计算的，他们对其进行标准化，使得最终损失是他们最初采用的整个训练数据序列长度上的损失。

当我们运行代码时，我们可以在每次epoch后的诊断报告中看到整体损失，这些报告由日志生成。

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复