我应该使用k折交叉验证将数据分割成训练/测试/验证集吗?

在评估推荐系统时,可以将数据分割成三部分:训练集、验证集和测试集。在这种情况下,训练集用于从数据中学习推荐模型,而验证集则用于选择最佳模型或参数。然后,使用选定的模型,用户可以使用测试集来评估算法的性能。

我在scikit-learn的交叉验证文档页面(http://scikit-learn.org/stable/modules/cross_validation.html)上发现,当使用k折交叉验证时,不需要将数据分割成三部分,而只需分割成两部分:训练集和测试集。

解决此问题的方法称为交叉验证(简称CV)。仍然应该保留一个测试集用于最终评估,但在进行CV时不再需要验证集。在基本方法中,称为k折CV,训练集被分割成k个较小的集合(其他方法在下文中描述,但通常遵循相同的原则)。

我想知道这是否是一个好方法。如果是的话,有人能提供支持这一理论的文章/书籍的参考吗?


回答:

交叉验证并不是避免使用验证集,它只是使用了多个验证集。换句话说,不是将数据一次性分割成三部分,而是分割成两部分,你现在称为“训练”的部分实际上是之前的训练集和验证集的结合。CV只是关于重复分割(以比随机分割稍微聪明的方式)成训练集和测试集,然后平均结果。支持这一理论的文献在任何好的机器学习书籍中都可以找到;关键问题是“我应该使用它吗”,答案出奇的简单——只有在你没有足够的数据进行一次分割时才使用。CV在你没有足够的数据让每个分割都能代表你感兴趣的分布时使用,然后进行重复分割只是为了减少方差。此外,对于非常小的数据集,人们会使用嵌套CV——一个用于[训练+验证][测试]分割,另一个用于内部的[训练][验证],这样就可以减少模型选择及其最终评估的方差。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注