我应该选择什么样的m值?我可以选择1吗。
这里p=先验概率=0.5。
那么我可以将P(a_i|selected)设为(n_c+ 0.5)/ (3+1)吗?
书中说这是通过让均匀先验和m等于词汇表大小从m估计中采用的。
但如果我们只有2个类别,那么p=0.5。那么mp
怎么会是1呢?不应该是|vocabulary|*0.5
吗?这个方程是如何从m估计中得出的?
在计算属性职业的概率时,由于先验概率为0.5,并且选择m=1
P(teacher|selected)=(2+0.5)/(3+1)=5/8 P(farmer|selected)=(1+0.5)/(3+1)=3/8 P(Business|Selected)=(0+0.5)/(3+1)= 1/8
但类概率不应该加起来等于1吗?在这种情况下并非如此。
回答:
“m估计概率”令人困惑。
在给定的例子中,m和p应该像这样。
m = 3 (* 这可以是任何值。你可以指定这个。)p = 1/3 = |v| (* 特征中唯一值的数量)
如果你使用m=|v| 那么m*p=1,
所以这被称为拉普拉斯平滑。“m估计概率”是拉普拉斯平滑的广义版本。
在上面的例子中,你可能认为m=3太大了,那么你可以将m减少到0.2,像这样。