Sklearn朴素贝叶斯分类器用于同一类别的数据

我运行了这个简单的朴素贝叶斯程序:

import numpy as npX = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])Y = np.array([1, 1, 1, 2, 2, 2])from sklearn.naive_bayes import GaussianNBclf = GaussianNB()clf.fit(X, Y)print(clf.predict([[-0.8, -1],[-0.9, -1]]))

我得到的结果是:

[1 1]

[-0.8, -1]被分类为1,而[-0.9, -1]被分类为2。如果我知道我的数据都来自同一个类别,即[[-0.8, -1],[-0.9, -1]]来自同一个类别,有没有办法让scikit-learn的朴素贝叶斯分类器将这些数据作为一个整体进行分类(在这种情况下给我[1]作为结果),而不是单独对每个数据点进行分类。


回答:

朴素贝叶斯分类器是单独对每个输入进行分类(而不是作为一个组)。如果你知道所有输入都属于同一个(但未知)的类别,那么你需要做一些额外的工作来得到你的结果。一个选项是从clf.predict的结果中选择计数最多的类别,但如果你的组中只有两个实例,这可能不太有效。

另一个选项是调用GaussianNB分类器的predict_proba,它将返回每个输入的所有类的概率。你可以使用这些个别概率(例如,你可以对每个类的概率求和)来决定如何对组进行分类。

你甚至可以结合这两种方法 – 使用predict并选择计数最高的类别,但使用predict_proba来打破平局。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注