在处理Dirichlet过程时,根据[Teh, 2007]的说法,一个DP由基础概率H和一个比例因子“alpha”定义。
根据Stick Breaking构造法,从DP中随机抽取的G为:
G~DP(alpha,H)
其表达式为:
G=sum(pi_k*delta_theta_k) 从k=1到无穷
pi_k是从Beta分布中根据单位棒的长度进行的有序抽取
delta_theta_k是一个以“theta_k”为中心的质量点(theta_k是从基础分布中随机抽取的)
我对所有变量都有相当清楚的理解,但我不明白他们所说的“质量点”是指这次抽取的概率密度,还是别的什么东西。
如果您能指引我任何方向,哪怕只是一个参考文献都将非常棒。
谢谢
回答:
G是一个在概率分布上的概率分布。这些(子)概率分布是在某个领域上,我们称之为BigTheta。
每个theta_k是从BigTheta上的分布中抽取的,因此它是BigTheta中的某个元素。
每个delta_theta_k是BigTheta上的一个概率分布,定义为delta_theta_k(theta_k) = 1 以及 delta_theta_k(其他任何东西) = 0。这就是他们所说的‘质量点’分布,因为分布的所有质量都集中在域的一个单一点上。
G是BigTheta上的概率分布的概率分布,定义为:对于某个称为f的BigTheta上的分布(由theta参数化),G(f(theta)) = sum (pi_k * delta_theta_k(theta))。
希望这对你有帮助,我认为你对这个概念的理解基本上是正确的,只是符号可能有点复杂(而且SO并不是处理这种符号的最佳平台)。每当你遇到一个符号时,思考它是什么类型的函数,即它是在什么上定义的,这通常是有帮助的。