有没有Python实现的逻辑回归,允许使用概率作为目标(即黄金标准)?
我的数据如下(前三列为特征,第四列为黄金标准):
32 453 65 0.5515 34 222 0.8833 66 161 0.76
scikit-learn 和 graphlab 似乎只允许0或1作为目标。
回答:
特别是如果你对最后一列的概率是如何估计的有直觉,你可以尝试使用加权逻辑回归。在scikit-learn中,你可以按照该统计答案中详细说明的方式计算样本权重,并将其传递给LogisticRegression.fit
方法的sample_weight
参数。
如果没有关于这些概率代表什么的进一步信息,你可以将你的数据集转换成类似这样的形式:
32 453 65 0, sample_weight = 4532 453 65 1, sample_weight = 5515 34 222 0, sample_weight = 1215 34 222 1, sample_weight = 8833 66 161 0, sample_weight = 2433 66 161 1, sample_weight = 76