分割测试训练与交叉验证之间得分差异巨大（10%）

我正在处理一个分类问题，数据集有：2500行，25000列，88个分布不均的不同类别

然后发生了一些非常奇怪的事情：

当我运行十几个不同的分割测试训练时，得分总是徘徊在60%左右…

而当我运行交叉验证时，得分总是徘徊在50%左右。以下是屏幕截图：此外，这与类别的不均匀分布无关，因为当我在TTS中设置stratify=y时，得分仍然在60%左右，而当我使用StratifiedKFold时，得分仍然在50%左右。

应该记住哪个得分？为什么会有这种差异？对我来说，CV只是一系列不同分割的测试训练分割，所以没有任何理由会导致得分有如此大的差异。

回答：

简短回答：在你的KFold中添加shuffle=True：cross_val_score(forest,X,y,cv=KFold(shuffle=True))

详细回答：一系列TrainTestSplit与使用经典KFold进行的交叉验证之间的区别在于，TTS在训练集和测试集之间分割之前会进行混合。得分差异可能是因为你的数据集是以一种有偏见的方式排序的。所以只需在你的KFold（或你的StratifiedKFold）中添加shuffle=True，这就是你需要做的全部。

学技术

分割测试训练与交叉验证之间得分差异巨大（10%）

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复