scikit多标签分类：ValueError: 输入形状错误

我认为使用SGDClassifier()并设置loss='log'可以支持多标签分类，而不需要使用OneVsRestClassifier。查看这里

现在，我的数据集非常大，我使用了HashingVectorizer并将其结果作为输入传递给SGDClassifier。我的目标有42048个特征。

当我按以下方式运行时：

clf.partial_fit(X_train_batch, y)

我得到：ValueError: bad input shape (300000, 42048)。

我还使用了如下参数，但仍然是相同的问题。

clf.partial_fit(X_train_batch, y, classes=np.arange(42048))

在SGDClassifier的文档中，它说明y : numpy array of shape [n_samples]

回答：

不，SGDClassifier并不进行多标签分类——它进行的是多类分类，这是一个不同的问题，尽管两者都通过一对多的问题简化来解决。

然后，无论是SGD还是OneVsRestClassifier.fit都不会接受y的稀疏矩阵。前者需要一个标签数组，正如你已经发现的。后者对于多标签目的，需要一个标签列表的列表，例如

y = [[1], [2, 3], [1, 3]]

表示X[0]有标签1，X[1]有标签{2,3}，X[2]有标签{1,3}。

学技术