Home IT技术 grid search cross-validation on SVC probability output in sci-kit learn

grid search cross-validation on SVC probability output in sci-kit learn

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我想对SVC分类器的概率输出进行网格搜索交叉验证。特别是，我想最小化负对数似然。从文档中看，GridSearchCV调用了传递给它的估计器的predict()方法，而SVC的predict()方法返回的是类别预测而不是概率（predict_proba()返回类别概率）。

1) 我是否需要子类化SVC并为其提供一个返回概率而不是类别的predict()方法来完成我的对数似然交叉验证？我猜我还需要编写自己的score_func或loss_func？

2) 在这个负对数似然上进行交叉验证是否愚蠢？我这样做是因为数据集是：a) 5:1的不平衡，b) 完全不可分，即即使是“最差”的观察也有> 50%的几率属于“好”类。（可能会将第二个问题也发布到统计问答网站上）

回答：

是的，你需要这样做，两方面都要考虑。

class ProbSVC(SVC):    def predict(self, X):        return super(ProbSVC, self).predict_proba(X)

我不确定这是否可行，因为多数类别可能仍然主导对数似然分数，最终的估计器可能仍然会对少数类别的样本产生>.5的正值。不过，我不确定，所以请发布到统计学网站上。

machine-learning python scikit-learn

发表回复取消回复