在Python中如何在分层K折交叉验证中指定测试集大小？

使用sklearn，我希望在样本数据集中进行3次分割（即n_splits = 3），并保持训练集与测试集的比例为70:30。我能够将数据集分割成3折，但无法定义测试集的大小（类似于train_test_split方法）。在StratifiedKFold中，有没有办法定义测试样本的大小？

from sklearn.model_selection import StratifiedKFold as SKF
skf = SKF(n_splits=3)
skf.get_n_splits(X, y)
for train_index, test_index in skf.split(X, y):
    # 循环3次以实现分层训练测试分割
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

回答：

StratifiedKFold 默认执行的是K折分割。这意味着，返回的迭代器将生成K-1个用于训练的集合，而1个用于测试的集合。K由n_splits控制，因此，它会创建n_samples/K大小的组，并使用所有K-1的组合进行训练/测试。有关更多信息，请参阅维基百科或谷歌K折交叉验证。

简而言之，测试集的大小将是1/K（即1/n_splits），所以您可以通过调整该参数来控制测试集的大小（例如，n_splits=3将使测试集大小为1/3 = 33%的数据）。然而，StratifiedKFold将在K组的K-1上进行迭代，这可能不是您想要的。

话虽如此，您可能对StratifiedShuffleSplit感兴趣，它可以返回可配置数量的分割和训练/测试比例。如果您只需要一次分割，您可以设置n_splits=1，并保持test_size=0.3（或您想要的任何比例）。

学技术

在Python中如何在分层K折交叉验证中指定测试集大小？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复