我想找到以下概率:
P(y=1/n=k; thetha)
读作:
概率,即在给定词数为k的情况下,预测为类别1的概率,由thetha参数化
传统的分类算法没有这种条件概率(右侧)
P(y = 1; thetha)
我该如何解决这个问题?
编辑:
例如,假设我想根据附件数量来预测一封邮件是否为垃圾邮件。设y=1
表示垃圾邮件,y=0
表示非垃圾邮件。
那么,
P(y = 1/num_attachements=0; some attributes)等等!
这有意义吗?
回答:
通常,附件数量只是另一个属性,因此您的概率与以下相同:
P(y = 1 | all attributes)
然而,如果您对附件有特殊处理(例如,其他属性是数值型而附件是布尔型),您可以分别计算它们,然后结合如下:
P(C|A, B) = P(C|A) * P(C|B) / P(C)
其中C
表示事件y = 1
,A
表示附件,B
表示其他属性。
请参阅这篇论文,了解几种朴素贝叶斯分类器的描述。