理解sklearn GridSearchCV的best_score_和best_estimator_

在下面的代码中,我试图理解best_estimator_best_score_之间的联系。我认为通过对best_estimator_的结果进行评分,应该能够得到(至少是非常接近的)best_score_,像这样:

from sklearn.model_selection import GridSearchCVfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_lossclassifier = GridSearchCV(LogisticRegression(penalty='l1'),                          {'C':10**(np.linspace(1,6,num=11))},                          scoring='neg_log_loss')classifier.fit(X_train, y_train)y_pred = classifier.best_estimator_.predict(X_train)print(f'{log_loss(y_train,y_pred)}') print(f'{classifier.best_score_}')

然而,我得到了以下输出(在不同运行中数字变化不大):

7.841241697018637-0.5470694752031108

我理解best_score_将作为交叉验证迭代的平均值来计算,然而这应该是一个非常接近的近似值(甚至是无偏估计器?)来计算整个集合上的度量。我不明白为什么它们差异如此之大,所以我假设我犯了实现错误。

我如何自己计算classifier.best_score_


回答:

Log_loss主要是为predict_proba()定义的。我假设GridSearchCV在内部调用predict_proba然后计算分数。

请将predict()更改为predict_proba(),您将看到类似的结果。

y_pred = classifier.best_estimator_.predict_proba(X)print(log_loss(y_train,y_pred)) print(classifier.best_score_)

在iris数据集上,我得到了以下输出:

0.165794760809-0.185370083771

这看起来相当接近。

更新:

看起来情况是这样的:当你将'loss_loss'作为字符串提供给GridSearchCV时,它是这样被初始化为一个评分器,传递给_fit_and_score()方法的GridSearchCV()

log_loss_scorer = make_scorer(log_loss, greater_is_better=False,                              needs_proba=True)

如您所见,needs_proba为真,意味着评分时将使用predict_proba()。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注