Home IT技术在 Python 3.6 中使用 train-test-split 函数两次时，应传递什么作为输入参数

在 Python 3.6 中使用 train-test-split 函数两次时，应传递什么作为输入参数

IT技术 xiaolong · 2025年5月24日 · 0 Comment

基本上，我希望将我的数据集分为训练、测试和验证集。因此，我使用了 train_test_split 函数两次。我的数据集大约有1000万行。

在第一次分割中，我将训练和测试数据集分割为7000万行的训练集和3000万行的测试集。现在，为了获得验证集，我有点困惑，不知道是使用分割后的测试数据还是训练数据作为 train-test-split 的输入参数来获得验证集。请给一些建议，提前感谢。

X = features y = target # 将 X, y 分为训练、测试和验证数据，70% 的训练数据集，15% 的测试和15% 的验证集 from sklearn.model_selection import train_test_split # 特征和标签按 70-30 比例分割 X_train, X_test, y_train, y_test = train_test_split(X, y,  test_size = 0.3, random_state = 0) # 进一步将测试数据分割为测试和验证集，比例为 15-15 x_test, x_val, y_test, y_val = train_test_split(X_test, y_test, test_size=0.5)

回答：

不要让测试集太小。20% 的测试数据集是可以的。如果你将训练数据集进一步分割成训练和验证集（80%/20% 是一个公平的分割比例），会更好。考虑到这一点，你应该这样修改你的代码：

X_train, X_test, y_train, y_test = train_test_split(X, y,  test_size = 0.2, random_state = 0) x_test, x_val, y_test, y_val = train_test_split(X_train, y_train, test_size=0.25)

这种方式分割数据集是一种常见做法。

classification machine-learning python train-test-split

发表回复取消回复