如何推导边缘似然函数?

我对边缘似然函数中关于”theta”的积分有些困惑(http://en.wikipedia.org/wiki/Marginal_likelihood,Section:”Applications”-“Bayesian model comparison”,该页面上的第三个方程):

为什么给定模型M的x的概率等于这个积分?如何推导这个方程?


回答:

这个积分不过是全概率定律的连续形式。因此,它可以直接从概率公理中推导出来。根据链接中的第二个公式(维基百科),你需要做的就是将离散状态的求和替换为积分,就能得到你想要的公式。

那么,直观上这意味着什么呢?你假设了一个关于数据X的模型,这个模型依赖于变量theta。对于给定的theta,数据集X的概率是p(X|theta)。由于你不确定theta的具体值,你选择让theta遵循由一个(常数)参数alpha指定的分布p(theta|alpha)。现在,X的分布直接由alpha决定(这应该很清楚…问问自己是否有其他可能依赖的因素…你会发现没有)。因此,你可以通过积分去除变量theta来计算其确切影响。这正是全概率定律所陈述的。

如果你通过这个解释仍然不明白,我建议你尝试一下离散状态的条件概率,这通常会导致明显的结果。然后扩展到连续情况就很简单了。


编辑:第三个方程展示了我试图在上面解释的内容。你有一个模型M。这个模型的参数theta由p(theta|M)分布——你也可以写成p_M(theta)。

这些参数通过p(X|theta, M)确定数据X的分布…即每个theta给出X的不同分布(对于选择的模型M)。然而,这种形式并不方便使用。你想要的是关于模型M的总结性陈述,而不是关于其对theta的各种可能选择的陈述。换句话说,你现在想要知道给定模型M的X的平均值(请注意,模型M中也包括了其参数的选择分布。例如,M不仅仅意味着“神经网络”,而是类似于“权重在[-1,1]范围内均匀分布的神经网络”)。

获得这个“平均值”只需要基本的统计知识:只需取模型p(X|theta, M),乘以密度p(theta| M),然后对theta进行积分。这基本上是你对统计中任何平均值所做的操作。总的来说,你得到了边缘化p(x|M)。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注