理解sklearn GridSearchCV的best_score_和best_estimator_

在下面的代码中,我试图理解best_estimator_best_score_之间的联系。我认为通过对best_estimator_的结果进行评分,应该能够得到(至少是非常接近的)best_score_,像这样:

from sklearn.model_selection import GridSearchCVfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_lossclassifier = GridSearchCV(LogisticRegression(penalty='l1'),                          {'C':10**(np.linspace(1,6,num=11))},                          scoring='neg_log_loss')classifier.fit(X_train, y_train)y_pred = classifier.best_estimator_.predict(X_train)print(f'{log_loss(y_train,y_pred)}') print(f'{classifier.best_score_}')

然而,我得到了以下输出(在不同运行中数字变化不大):

7.841241697018637-0.5470694752031108

我理解best_score_将作为交叉验证迭代的平均值来计算,然而这应该是一个非常接近的近似值(甚至是无偏估计器?)来计算整个集合上的度量。我不明白为什么它们差异如此之大,所以我假设我犯了实现错误。

我如何自己计算classifier.best_score_


回答:

Log_loss主要是为predict_proba()定义的。我假设GridSearchCV在内部调用predict_proba然后计算分数。

请将predict()更改为predict_proba(),您将看到类似的结果。

y_pred = classifier.best_estimator_.predict_proba(X)print(log_loss(y_train,y_pred)) print(classifier.best_score_)

在iris数据集上,我得到了以下输出:

0.165794760809-0.185370083771

这看起来相当接近。

更新:

看起来情况是这样的:当你将'loss_loss'作为字符串提供给GridSearchCV时,它是这样被初始化为一个评分器,传递给_fit_and_score()方法的GridSearchCV()

log_loss_scorer = make_scorer(log_loss, greater_is_better=False,                              needs_proba=True)

如您所见,needs_proba为真,意味着评分时将使用predict_proba()。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注