KNeighborsClassifier概率预测方法仅返回0和1

谁能告诉我我的代码有什么问题?为什么我可以使用LinearRegression来预测鸢尾花数据集的概率,而KNeighborsClassifier却只给我0或1的结果,而它应该像LinearRegression那样给出结果呢?

from sklearn.datasets import load_irisfrom sklearn import metricsiris = load_iris()X = iris.datay = iris.targetfor train_index, test_index in skf:    X_train, X_test = X_total[train_index], X_total[test_index]    y_train, y_test = y_total[train_index], y_total[test_index]from sklearn.linear_model import LogisticRegressionln = LogisticRegression()ln.fit(X_train,y_train)ln.predict_proba(X_test)[:,1]

array([ 0.18075722, 0.08906078, 0.14693156, 0.10467766, 0.14823032, 0.70361962, 0.65733216, 0.77864636, 0.67203114, 0.68655163, 0.25219798, 0.3863194 , 0.30735105, 0.13963637, 0.28017798])

from sklearn.neighbors import KNeighborsClassifierknn = KNeighborsClassifier(n_neighbors=5, algorithm='ball_tree', metric='euclidean')knn.fit(X_train, y_train)knn.predict_proba(X_test)[0:10,1]

array([ 0., 0., 0., 0., 0., 1., 1., 1., 1., 1.])


回答:

因为KNN对概率的概念非常有限。它的估计只是基于最近邻居投票的比例。增加邻居数量到15或100,或者查询靠近决策边界的点,你会看到更多样化的结果。目前你的点总是有5个相同标签的邻居(因此概率为0或1)。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注