是否有办法为只有一个类别构建scikit-learn逻辑回归模型?显然,这个模型每次都会预测同一个类别,无论输入数据如何。我的模型目前使用liblinear作为求解器,我不确定是否有其他求解器可以允许这样做?
我意识到这对机器学习来说是一个非常奇怪的问题,但我正在构建许多层次模型,在我的情况下,即使每次都预测同一个类别,拥有每个案例的模型会更容易处理。
背景:我有一个层次预测任务,试图预测一个9位代码的三个部分(例如,对于代码=001010424,第一部分=001,第二部分=01,第三部分=0424)。为此,我正在构建层次模型。使用输入数据,我们首先预测第一部分,然后使用第一部分最高置信度的决策,再次使用输入数据在特定于第一部分代码的模型中预测第二部分。例如,如果我运行第一部分模型并得到预测第一部分=001,那么我会转到001的第二部分模型,该模型(经过训练并)根据第一部分=001预测第二部分。这种层次行为在第三部分重复进行。
回答:
Scikit-learn需要至少两个类别的样本。
import numpy as np from sklearn.linear_model import LogisticRegression x = np.random.rand(5,2) y = np.ones(5).astype(int) model = LogisticRegression().fit(x, y)
这会产生以下错误:
ValueError: This solver needs samples of at least 2 classes in the data, but the data contains only one class: 1
你最好让你的训练算法检查是否只有一个y
标签,如果有的话,让你的代码记住这个标签。这样一种实现看起来会比较简单,并且对以后查看代码的人来说更容易理解。