我在卡内基梅隆大学观看了Tom Mitchell教授2011年开设的课程10-701的机器学习课程视频。他在讲解最大似然估计时使用了Beta分布作为theta的先验,我很好奇他为什么只选择了这个分布?
回答:
在这个讲座中,Mitchell教授给出了一个抛硬币并估计其公平性的例子,即正面朝上的概率 – theta。他合理地选择了二项分布来进行这个实验。
选择Beta分布作为先验的原因是为了在计算后验时简化数学运算。这非常有效,因为Beta分布是二项分布的共轭先验 – 在同一个讲座的最后,教授提到了这一点。这并不意味着不能使用其他先验,例如正态分布、泊松分布等。但其他先验会导致复杂的后验分布,这些分布难以优化、计算积分等。
这是一个普遍原则:即使共轭先验并不完全符合数据,也应优先选择共轭先验而不是更复杂的分布,因为数学运算更简单。