在 Python 3.6 中使用 train-test-split 函数两次时,应传递什么作为输入参数

基本上,我希望将我的数据集分为训练、测试和验证集。因此,我使用了 train_test_split 函数两次。我的数据集大约有1000万行。

在第一次分割中,我将训练和测试数据集分割为7000万行的训练集和3000万行的测试集。现在,为了获得验证集,我有点困惑,不知道是使用分割后的测试数据还是训练数据作为 train-test-split 的输入参数来获得验证集。请给一些建议,提前感谢。

X = features y = target # 将 X, y 分为训练、测试和验证数据,70% 的训练数据集,15% 的测试和15% 的验证集 from sklearn.model_selection import train_test_split # 特征和标签按 70-30 比例分割 X_train, X_test, y_train, y_test = train_test_split(X, y,  test_size = 0.3, random_state = 0) # 进一步将测试数据分割为测试和验证集,比例为 15-15 x_test, x_val, y_test, y_val = train_test_split(X_test, y_test, test_size=0.5)

回答:

不要让测试集太小。20% 的测试数据集是可以的。如果你将训练数据集进一步分割成训练和验证集(80%/20% 是一个公平的分割比例),会更好。考虑到这一点,你应该这样修改你的代码:

X_train, X_test, y_train, y_test = train_test_split(X, y,  test_size = 0.2, random_state = 0) x_test, x_val, y_test, y_val = train_test_split(X_train, y_train, test_size=0.25)

这种分割方式是一种常见做法

这种方式分割数据集是一种常见做法。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注