我知道朴素贝叶斯在二元分类上表现很好,但我想了解多类分类是如何工作的。
例如:之前我使用朴素贝叶斯进行文本分类,我对文本进行了向量化处理,以计算文档中每个词的概率,然后使用向量化数据来拟合朴素贝叶斯分类器。
现在,我正在处理如下数据:
A, B, C, D, E, F, G
210, 203, 0, 30, 710, 2587452, 0
273, 250, 0, 30, 725, 3548798, 1
283, 298, 0, 31, 785, 3987452, 3
在上述数据中,有6个特征(A-F),G是类别,值为(0、1或2)
我的数据集中有大约70000个条目,类别(输出)为1、2或3。
在将数据分为测试和训练数据后,我将训练数据拟合到sklearn的高斯朴素贝叶斯算法中。拟合后,当我尝试预测测试数据时,它只分类为0或2。
所以,我的疑问是,既然我在文本分类中拟合朴素贝叶斯分类器之前进行了向量化处理,那么对于上述数据,在用训练数据拟合高斯朴素贝叶斯分类器之前,是否需要进行数据预处理,以便它可以预测多类(0、1和2),而不是仅预测(0和2)。
回答:
我知道朴素贝叶斯在二元分类上表现很好,但我想了解多类分类是如何工作的。
朴素贝叶斯并没有专门针对二元分类的特性,它设计之初就能很好地处理多类分类。
所以,我的疑问是,既然我在文本分类中拟合朴素贝叶斯分类器之前进行了向量化处理,那么对于上述数据,在用训练数据拟合高斯朴素贝叶斯分类器之前,是否需要进行数据预处理,以便它可以预测多类(0、1和2),而不是仅预测(0和2)。
不,对于多类分类部分不需要预处理。但是,对于高斯部分——顾名思义,该模型会尝试为每个特征拟合高斯概率密度函数。因此,如果你的特征不遵循高斯分布,模型可能会失败。如果你能根据现有数据找出每种特征的转换方法,使它们更接近高斯分布,这将有助于模型。例如,你的一些特征似乎是非常大的数字,如果它们不遵循高斯分布,可能会造成严重的问题。你可能需要对数据进行归一化处理,甚至考虑删除这些特征。
唯一的原因是你的模型从不预测1,是因为在朴素贝叶斯的假设下,以及提供的数据中,1的概率不足以被考虑。你可以尝试如上所述对特征进行归一化处理。如果这不起作用,你还可以通过为sklearn提供你自己的prior
属性来人为地“加重”选定类别的权重(通常这是从数据中估计的,表示“遇到类别X的样本的频率”,如果你将其改为更高的数字,该类别将被认为更可能)。