我想了解在EM算法中使用ICM作为E步近似的数学依据是什么。
据我所知,在E步中,目标是找到一个与潜在变量的后验分布相等的分布,这保证了似然函数的增加,或者找到一些更简单的分布家族中的最佳可能分布,这保证了似然函数的下界增加。
如何在这样的E步中数学上证明使用ICM的合理性?任何参考文献/推导/笔记都将非常有帮助。
回答:
让我们考虑一个简单的条件随机场(CRF),它表示给定观测(x)时标记(y)的似然性。还假设似然性依赖于参数\theta。在推断中,你只知道x,并试图推断y。你所做的只是以一种方式应用EM算法,使E步找到标记y(argmax P(y|x,\theta)),而M步找到参数\theta(argmax P(\theta|x,y))。M步可以通过使用任何优化算法来完成,因为\theta通常不是高维的(至少不像y的维度那么高)。E步只是在没有隐藏变量的MRF/CRF上进行推断,因为\theta在M步中是独立优化的。ICM是一种用于执行推断的算法。如果你需要参考文献,可以简单地阅读Murphy的书http://www.cs.ubc.ca/~murphyk/MLbook/,我认为第26章与此相当相关。