多类分类使用高斯朴素贝叶斯

我知道朴素贝叶斯在二元分类上表现很好,但我想了解多类分类是如何工作的。

例如:之前我使用朴素贝叶斯进行文本分类,我对文本进行了向量化处理,以计算文档中每个词的概率,然后使用向量化数据来拟合朴素贝叶斯分类器。

现在,我正在处理如下数据:

A, B, C, D, E, F, G

210, 203, 0, 30, 710, 2587452, 0

273, 250, 0, 30, 725, 3548798, 1

283, 298, 0, 31, 785, 3987452, 3

在上述数据中,有6个特征(A-F),G是类别,值为(0、1或2)

我的数据集中有大约70000个条目,类别(输出)为1、2或3。

在将数据分为测试和训练数据后,我将训练数据拟合到sklearn的高斯朴素贝叶斯算法中。拟合后,当我尝试预测测试数据时,它只分类为0或2。

所以,我的疑问是,既然我在文本分类中拟合朴素贝叶斯分类器之前进行了向量化处理,那么对于上述数据,在用训练数据拟合高斯朴素贝叶斯分类器之前,是否需要进行数据预处理,以便它可以预测多类(0、1和2),而不是仅预测(0和2)。


回答:

我知道朴素贝叶斯在二元分类上表现很好,但我想了解多类分类是如何工作的。

朴素贝叶斯并没有专门针对二元分类的特性,它设计之初就能很好地处理多类分类。

所以,我的疑问是,既然我在文本分类中拟合朴素贝叶斯分类器之前进行了向量化处理,那么对于上述数据,在用训练数据拟合高斯朴素贝叶斯分类器之前,是否需要进行数据预处理,以便它可以预测多类(0、1和2),而不是仅预测(0和2)。

不,对于多类分类部分不需要预处理。但是,对于高斯部分——顾名思义,该模型会尝试为每个特征拟合高斯概率密度函数。因此,如果你的特征不遵循高斯分布,模型可能会失败。如果你能根据现有数据找出每种特征的转换方法,使它们更接近高斯分布,这将有助于模型。例如,你的一些特征似乎是非常大的数字,如果它们不遵循高斯分布,可能会造成严重的问题。你可能需要对数据进行归一化处理,甚至考虑删除这些特征。

唯一的原因是你的模型从不预测1,是因为在朴素贝叶斯的假设下,以及提供的数据中,1的概率不足以被考虑。你可以尝试如上所述对特征进行归一化处理。如果这不起作用,你还可以通过为sklearn提供你自己的prior属性来人为地“加重”选定类别的权重(通常这是从数据中估计的,表示“遇到类别X的样本的频率”,如果你将其改为更高的数字,该类别将被认为更可能)。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注