计算负ELBO

我在学习深马尔可夫模型的教程,其中他们试图学习多声音乐数据集。教程的链接是:

https://pyro.ai/examples/dmm.html

该模型使用神经网络参数化转换和发射,并在变分推断部分使用RNN将可观察的’x’映射到潜在空间。为了确保他们的模型在学习,他们尝试最大化ELBO或最小化负ELBO。他们将负ELBO称为NLL。到目前为止,我理解他们在做什么。然而,下一步让我感到困惑。一旦他们有了NLL,他们将其除以序列长度的总和。

times = [time.time()]for epoch in range(args.num_epochs):    # 用于估计当前epoch负对数似然度的累加器
    # (或者说是负ELBO)
    epoch_nll = 0.0    # 为当前epoch准备mini-batch子采样索引
    shuffled_indices = np.arange(N_train_data)    np.random.shuffle(shuffled_indices)    # 处理每个mini-batch;这是我们进行梯度步骤的地方
    for which_mini_batch in range(N_mini_batches):        epoch_nll += process_minibatch(epoch, which_mini_batch, shuffled_indices)    # 报告训练诊断信息
    times.append(time.time())    epoch_time = times[-1] - times[-2]    log("[training epoch %04d]  %.4f \t\t\t\t(dt = %.3f sec)" %        (epoch, epoch_nll / N_train_time_slices, epoch_time))

我不太理解他们为什么要这样做。能解释一下吗?他们在这里是在做平均吗?欢迎提供见解。


回答:

在教程中,通过优化过程,他们试图减少损失,并最终希望将其与教程中的参考[1]进行比较。

“最后我们报告一些诊断信息。请注意,我们通过训练集中的总时间片数来标准化损失(这使我们能够与参考[1]进行比较)。”

这是您提供的教程中的内容。

基本上,损失是针对所有mini-batch计算的,他们对其进行标准化,使得最终损失是他们最初采用的整个训练数据序列长度上的损失。

当我们运行代码时,我们可以在每次epoch后的诊断报告中看到整体损失,这些报告由日志生成。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注