train_test_split与StratifiedShuffleSplit的区别

在试图找出train_test_split和StratifiedShuffleSplit之间的区别时，我发现了以下声明。

当stratify不为None时，train_test_split内部使用StratifiedShuffleSplit，

我只是在想，为什么当我们可以使用train_test_split中的stratify参数时，还要使用sklearn.model_selection中的StratifiedShuffleSplit。

回答：

主要是为了可重用性。相比于复制已经为StratifiedShuffleSplit实现的代码，train_test_split只是调用那个类。出于同样的原因，当stratify=False时，它使用model_selection.ShuffleSplit类（参见源代码）。

请注意，复制代码被认为是一种不好的做法，因为它被认为会增加维护成本，而且由于对代码复制的更改不一致，可能会导致意外的行为。如果你想了解更多，这里有一篇参考文献。

此外，尽管它们执行相同的任务，但它们并不能在所有情况下都通用。例如，train_test_split不能在使用sklearn.model_selection.RandomizedSearchCV或sklearn.model_selection.GridSearchCV进行随机或网格搜索时使用。而StratifiedShuffleSplit可以。原因是前者不是“一个生成（train, test）分割作为索引数组的可迭代对象”。而后者有一个方法split，它生成（train, test）分割作为索引数组。更多信息请参见这里（查看参数cv）。

学技术

train_test_split与StratifiedShuffleSplit的区别

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复