迭代条件模式在EM算法中的E步

我想了解在EM算法中使用ICM作为E步近似的数学依据是什么。

据我所知,在E步中,目标是找到一个与潜在变量的后验分布相等的分布,这保证了似然函数的增加,或者找到一些更简单的分布家族中的最佳可能分布,这保证了似然函数的下界增加。

如何在这样的E步中数学上证明使用ICM的合理性?任何参考文献/推导/笔记都将非常有帮助。


回答:

让我们考虑一个简单的条件随机场(CRF),它表示给定观测(x)时标记(y)的似然性。还假设似然性依赖于参数\theta。在推断中,你只知道x,并试图推断y。你所做的只是以一种方式应用EM算法,使E步找到标记y(argmax P(y|x,\theta)),而M步找到参数\theta(argmax P(\theta|x,y))。M步可以通过使用任何优化算法来完成,因为\theta通常不是高维的(至少不像y的维度那么高)。E步只是在没有隐藏变量的MRF/CRF上进行推断,因为\theta在M步中是独立优化的。ICM是一种用于执行推断的算法。如果你需要参考文献,可以简单地阅读Murphy的书http://www.cs.ubc.ca/~murphyk/MLbook/,我认为第26章与此相当相关。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注