我一直在试图弄清楚GridSearchCV的best_score_参数是如何计算的(换句话说,它的含义是什么)。文档中提到:
最佳估计器在留出数据上的得分。
因此,我尝试将其翻译成我能理解的内容,并计算了每个k折的实际“y”值和预测的y值的r2_score,结果却不同(使用了以下代码):
test_pred = np.zeros(y.shape) * np.nan for train_ind, test_ind in kfold: clf.best_estimator_.fit(X[train_ind, :], y[train_ind]) test_pred[test_ind] = clf.best_estimator_.predict(X[test_ind])r2_test = r2_score(y, test_pred)
我到处寻找关于best_score_更有意义的解释,但一无所获。有人能解释一下吗?
谢谢
回答:
它是最佳估计器的平均交叉验证得分。让我们创建一些数据并固定交叉验证的数据划分。
>>> y = linspace(-5, 5, 200)>>> X = (y + np.random.randn(200)).reshape(-1, 1)>>> threefold = list(KFold(len(y)))
现在运行cross_val_score
和GridSearchCV
,都使用这些固定的折叠。
>>> cross_val_score(LinearRegression(), X, y, cv=threefold)array([-0.86060164, 0.2035956 , -0.81309259])>>> gs = GridSearchCV(LinearRegression(), {}, cv=threefold, verbose=3).fit(X, y) Fitting 3 folds for each of 1 candidates, totalling 3 fits[CV] ................................................................[CV] ...................................... , score=-0.860602 - 0.0s[Parallel(n_jobs=1)]: Done 1 jobs | elapsed: 0.0s[CV] ................................................................[CV] ....................................... , score=0.203596 - 0.0s[CV] ................................................................[CV] ...................................... , score=-0.813093 - 0.0s[Parallel(n_jobs=1)]: Done 3 out of 3 | elapsed: 0.0s finished
请注意GridSearchCV
输出中的score=-0.860602
、score=0.203596
和score=-0.813093
;这些值正是cross_val_score
返回的值。
请注意,“平均”实际上是对折叠的宏平均。可以使用GridSearchCV
的iid
参数来获得对样本的微平均。