多类分类使用高斯朴素贝叶斯

我知道朴素贝叶斯在二元分类上表现很好，但我想了解多类分类是如何工作的。

例如：之前我使用朴素贝叶斯进行文本分类，我对文本进行了向量化处理，以计算文档中每个词的概率，然后使用向量化数据来拟合朴素贝叶斯分类器。

现在，我正在处理如下数据：

A, B, C, D, E, F, G

210, 203, 0, 30, 710, 2587452, 0

273, 250, 0, 30, 725, 3548798, 1

283, 298, 0, 31, 785, 3987452, 3

在上述数据中，有6个特征（A-F），G是类别，值为（0、1或2）

我的数据集中有大约70000个条目，类别（输出）为1、2或3。

在将数据分为测试和训练数据后，我将训练数据拟合到sklearn的高斯朴素贝叶斯算法中。拟合后，当我尝试预测测试数据时，它只分类为0或2。

所以，我的疑问是，既然我在文本分类中拟合朴素贝叶斯分类器之前进行了向量化处理，那么对于上述数据，在用训练数据拟合高斯朴素贝叶斯分类器之前，是否需要进行数据预处理，以便它可以预测多类（0、1和2），而不是仅预测（0和2）。

回答：

我知道朴素贝叶斯在二元分类上表现很好，但我想了解多类分类是如何工作的。

朴素贝叶斯并没有专门针对二元分类的特性，它设计之初就能很好地处理多类分类。

所以，我的疑问是，既然我在文本分类中拟合朴素贝叶斯分类器之前进行了向量化处理，那么对于上述数据，在用训练数据拟合高斯朴素贝叶斯分类器之前，是否需要进行数据预处理，以便它可以预测多类（0、1和2），而不是仅预测（0和2）。

不，对于多类分类部分不需要预处理。但是，对于高斯部分——顾名思义，该模型会尝试为每个特征拟合高斯概率密度函数。因此，如果你的特征不遵循高斯分布，模型可能会失败。如果你能根据现有数据找出每种特征的转换方法，使它们更接近高斯分布，这将有助于模型。例如，你的一些特征似乎是非常大的数字，如果它们不遵循高斯分布，可能会造成严重的问题。你可能需要对数据进行归一化处理，甚至考虑删除这些特征。

唯一的原因是你的模型从不预测1，是因为在朴素贝叶斯的假设下，以及提供的数据中，1的概率不足以被考虑。你可以尝试如上所述对特征进行归一化处理。如果这不起作用，你还可以通过为sklearn提供你自己的prior属性来人为地“加重”选定类别的权重（通常这是从数据中估计的，表示“遇到类别X的样本的频率”，如果你将其改为更高的数字，该类别将被认为更可能）。

学技术

多类分类使用高斯朴素贝叶斯

发表回复取消回复

相关文章：

Related Posts

Keras Dense层输入未被展平

无法将分类变量输入随机森林

如何在Keras中对每个输出应用Sigmoid函数？

如何选择类概率的最佳阈值？

在Keras中使用深度学习得到不同的结果

‘MatMul’操作的输入’b’类型为float32，与参数’a’的类型float64不匹配

发表回复 取消回复

发表回复取消回复