我对边缘似然函数中关于”theta”的积分有些困惑(http://en.wikipedia.org/wiki/Marginal_likelihood,Section:”Applications”-“Bayesian model comparison”,该页面上的第三个方程):
为什么给定模型M的x的概率等于这个积分?如何推导这个方程?
回答:
这个积分不过是全概率定律的连续形式。因此,它可以直接从概率公理中推导出来。根据链接中的第二个公式(维基百科),你需要做的就是将离散状态的求和替换为积分,就能得到你想要的公式。
那么,直观上这意味着什么呢?你假设了一个关于数据X的模型,这个模型依赖于变量theta。对于给定的theta,数据集X的概率是p(X|theta)。由于你不确定theta的具体值,你选择让theta遵循由一个(常数)参数alpha指定的分布p(theta|alpha)。现在,X的分布直接由alpha决定(这应该很清楚…问问自己是否有其他可能依赖的因素…你会发现没有)。因此,你可以通过积分去除变量theta来计算其确切影响。这正是全概率定律所陈述的。
如果你通过这个解释仍然不明白,我建议你尝试一下离散状态的条件概率,这通常会导致明显的结果。然后扩展到连续情况就很简单了。
编辑:第三个方程展示了我试图在上面解释的内容。你有一个模型M。这个模型的参数theta由p(theta|M)分布——你也可以写成p_M(theta)。
这些参数通过p(X|theta, M)确定数据X的分布…即每个theta给出X的不同分布(对于选择的模型M)。然而,这种形式并不方便使用。你想要的是关于模型M的总结性陈述,而不是关于其对theta的各种可能选择的陈述。换句话说,你现在想要知道给定模型M的X的平均值(请注意,模型M中也包括了其参数的选择分布。例如,M不仅仅意味着“神经网络”,而是类似于“权重在[-1,1]范围内均匀分布的神经网络”)。
获得这个“平均值”只需要基本的统计知识:只需取模型p(X|theta, M),乘以密度p(theta| M),然后对theta进行积分。这基本上是你对统计中任何平均值所做的操作。总的来说,你得到了边缘化p(x|M)。