多类分类使用高斯朴素贝叶斯

我知道朴素贝叶斯在二元分类上表现很好,但我想了解多类分类是如何工作的。

例如:之前我使用朴素贝叶斯进行文本分类,我对文本进行了向量化处理,以计算文档中每个词的概率,然后使用向量化数据来拟合朴素贝叶斯分类器。

现在,我正在处理如下数据:

A, B, C, D, E, F, G

210, 203, 0, 30, 710, 2587452, 0

273, 250, 0, 30, 725, 3548798, 1

283, 298, 0, 31, 785, 3987452, 3

在上述数据中,有6个特征(A-F),G是类别,值为(0、1或2)

我的数据集中有大约70000个条目,类别(输出)为1、2或3。

在将数据分为测试和训练数据后,我将训练数据拟合到sklearn的高斯朴素贝叶斯算法中。拟合后,当我尝试预测测试数据时,它只分类为0或2。

所以,我的疑问是,既然我在文本分类中拟合朴素贝叶斯分类器之前进行了向量化处理,那么对于上述数据,在用训练数据拟合高斯朴素贝叶斯分类器之前,是否需要进行数据预处理,以便它可以预测多类(0、1和2),而不是仅预测(0和2)。


回答:

我知道朴素贝叶斯在二元分类上表现很好,但我想了解多类分类是如何工作的。

朴素贝叶斯并没有专门针对二元分类的特性,它设计之初就能很好地处理多类分类。

所以,我的疑问是,既然我在文本分类中拟合朴素贝叶斯分类器之前进行了向量化处理,那么对于上述数据,在用训练数据拟合高斯朴素贝叶斯分类器之前,是否需要进行数据预处理,以便它可以预测多类(0、1和2),而不是仅预测(0和2)。

不,对于多类分类部分不需要预处理。但是,对于高斯部分——顾名思义,该模型会尝试为每个特征拟合高斯概率密度函数。因此,如果你的特征不遵循高斯分布,模型可能会失败。如果你能根据现有数据找出每种特征的转换方法,使它们更接近高斯分布,这将有助于模型。例如,你的一些特征似乎是非常大的数字,如果它们不遵循高斯分布,可能会造成严重的问题。你可能需要对数据进行归一化处理,甚至考虑删除这些特征。

唯一的原因是你的模型从不预测1,是因为在朴素贝叶斯的假设下,以及提供的数据中,1的概率不足以被考虑。你可以尝试如上所述对特征进行归一化处理。如果这不起作用,你还可以通过为sklearn提供你自己的prior属性来人为地“加重”选定类别的权重(通常这是从数据中估计的,表示“遇到类别X的样本的频率”,如果你将其改为更高的数字,该类别将被认为更可能)。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注