基本上,我希望将我的数据集分为训练、测试和验证集。因此,我使用了 train_test_split 函数两次。我的数据集大约有1000万行。
在第一次分割中,我将训练和测试数据集分割为7000万行的训练集和3000万行的测试集。现在,为了获得验证集,我有点困惑,不知道是使用分割后的测试数据还是训练数据作为 train-test-split 的输入参数来获得验证集。请给一些建议,提前感谢。
X = features y = target # 将 X, y 分为训练、测试和验证数据,70% 的训练数据集,15% 的测试和15% 的验证集 from sklearn.model_selection import train_test_split # 特征和标签按 70-30 比例分割 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0) # 进一步将测试数据分割为测试和验证集,比例为 15-15 x_test, x_val, y_test, y_val = train_test_split(X_test, y_test, test_size=0.5)
回答:
不要让测试集太小。20% 的测试数据集是可以的。如果你将训练数据集进一步分割成训练和验证集(80%/20% 是一个公平的分割比例),会更好。考虑到这一点,你应该这样修改你的代码:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0) x_test, x_val, y_test, y_val = train_test_split(X_train, y_train, test_size=0.25)
这种方式分割数据集是一种常见做法。