为什么K折交叉验证会构建K+1个模型？

我已经阅读了K折交叉验证的一般步骤，网址是https://machinelearningmastery.com/k-fold-cross-validation/

它描述了一般程序如下：

所以如果是K折，那么将构建K个模型，对吗？但为什么我在以下H2O的链接中读到它构建了K+1个模型？

回答：

可以说，“我在别处读到”这种说法太模糊了（在哪里？），因为上下文确实很重要。

最可能的情况是，这样的说法指的是一些库，这些库在完成CV的正式程序后，默认会继续使用CV找到的最佳性能的超参数在整个训练数据上构建一个模型；例如，请看R包caret的相关train函数，除了执行CV（如果请求），还会返回finalModel：

finalModel

使用最佳参数拟合的对象

同样，scikit-learn的GridSearchCV也有一个相关的参数refit：

refit : boolean, or string, default=True

使用在整个数据集上找到的最佳参数重新拟合一个估计器。

[…]

重新拟合的估计器可以在best_estimator_属性中获得，并且允许直接在这个GridSearchCV实例上使用predict。

但即便如此，拟合的模型几乎从不只是K+1：当你实际使用CV进行超参数调整时（请记住，CV还有其他用途），你最终会拟合m*K个模型，其中m是你超参数组合集的长度（在单轮中，所有K折都使用一组超参数运行）。

换句话说，如果你的超参数搜索网格包含，例如，3个树的数量值和2个树深度值，你将在CV过程中拟合2*3*K = 6*K个模型，并且可能再加1，用找到的最佳超参数在整个数据上拟合你的模型。

因此，总结如下：

总共导致m*K + 1次模型拟合。

希望这对你有帮助…

学技术