理解sklearn GridSearchCV的best_score_和best_estimator_

在下面的代码中，我试图理解best_estimator_和best_score_之间的联系。我认为通过对best_estimator_的结果进行评分，应该能够得到（至少是非常接近的）best_score_，像这样：

from sklearn.model_selection import GridSearchCVfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_lossclassifier = GridSearchCV(LogisticRegression(penalty='l1'),                          {'C':10**(np.linspace(1,6,num=11))},                          scoring='neg_log_loss')classifier.fit(X_train, y_train)y_pred = classifier.best_estimator_.predict(X_train)print(f'{log_loss(y_train,y_pred)}') print(f'{classifier.best_score_}')

然而，我得到了以下输出（在不同运行中数字变化不大）：

7.841241697018637-0.5470694752031108

我理解best_score_将作为交叉验证迭代的平均值来计算，然而这应该是一个非常接近的近似值（甚至是无偏估计器？）来计算整个集合上的度量。我不明白为什么它们差异如此之大，所以我假设我犯了实现错误。

我如何自己计算classifier.best_score_？

回答：

Log_loss主要是为predict_proba()定义的。我假设GridSearchCV在内部调用predict_proba然后计算分数。

请将predict()更改为predict_proba()，您将看到类似的结果。

y_pred = classifier.best_estimator_.predict_proba(X)print(log_loss(y_train,y_pred)) print(classifier.best_score_)

在iris数据集上，我得到了以下输出：

0.165794760809-0.185370083771

这看起来相当接近。

更新：

看起来情况是这样的：当你将'loss_loss'作为字符串提供给GridSearchCV时，它是这样被初始化为一个评分器，传递给_fit_and_score()方法的GridSearchCV()：

log_loss_scorer = make_scorer(log_loss, greater_is_better=False,                              needs_proba=True)

如您所见，needs_proba为真，意味着评分时将使用predict_proba()。

学技术

理解sklearn GridSearchCV的best_score_和best_estimator_

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复