我使用Scikit
编写了一个垃圾邮件过滤器。为此,我使用了MultinomialNB with alpha = 0.1
。能有人用通俗的语言解释一下什么是alpha(平滑因子)以及我该如何选择它的值吗?
谢谢
回答:
查看维基百科页面http://en.wikipedia.org/wiki/Additive_smoothing。
基本思想是减少罕见词汇的影响:例如,如果你有一封包含“multinomialNB”这个词的垃圾邮件,而没有包含这个词的非垃圾邮件,那么在没有加法平滑的情况下,你的垃圾邮件过滤器会将所有包含这个关键词的邮件都归类为垃圾邮件。