LabelBinarizer在多类别示例中产生不同的结果

在执行scikit-learn教程中的多类别示例时

http://scikit-learn.org/stable/tutorial/basic/tutorial.html#multiclass-vs-multilabel-fitting

我发现了一个小小的奇怪之处。

>>> import sklearn>>> sklearn.__version__0.19.1>>> from sklearn.svm import SVC>>> from sklearn.multiclass import OneVsRestClassifier>>> from sklearn.preprocessing import LabelBinarizer>>> X = [[1, 2], [2, 4], [4, 5], [3, 2], [3, 1]]>>> y = [0, 0, 1, 1, 2] # 三类>>> clf = OneVsRestClassifier(estimator=SVC(random_state=0))>>> clf.fit(X, y).predict(X)array([0, 0, 1, 1, 2])

这些都很好。现在使用独热编码：

>>> y = LabelBinarizer().fit_transform(y)>>> yarray([[1, 0, 0],       [1, 0, 0],       [0, 1, 0],       [0, 1, 0],       [0, 0, 1]])

我期望标签二值化器只对目标进行编码，而不对分类器产生影响。然而，它却产生了不同的结果：

>>> clf.fit(X, y).predict(X)array([[1, 0, 0],       [1, 0, 0],       [0, 1, 0],       [0, 0, 0],       [0, 0, 0]])

在Google Colab上的笔记本（同样的代码却产生了不同的错误，奇怪的是）：

https://drive.google.com/file/d/13dZ2aVbKTMgPOxj2SLsas2U2mOoKng2M/view?usp=sharing

回答：

OneVsRestClassifier 在后台本身就应用了 LabelBinarizer（源代码在 sklearn/multiclass.py）：

def fit(self, X, y):  ...  self.label_binarizer_ = LabelBinarizer(sparse_output=True)  Y = self.label_binarizer_.fit_transform(y)  Y = Y.tocsc()  self.classes_ = self.label_binarizer_.classes_

因此，额外的 manual 转换是不必要的。实际上，它将你的独热编码的 y 解释为多标签输入。从文档中可以看到：

y : (稀疏) 数组类型，shape = [n_samples, ], [n_samples, n_classes]

多类别目标。指示矩阵会启动多标签分类。

学技术

LabelBinarizer在多类别示例中产生不同的结果

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复