如何将数据集（CSV）拆分为训练和测试数据

如果数据集中没有依赖变量，如何在Python编程语言中将数据集（CSV）拆分为训练和测试数据？

我目前正在进行的项目是基于机器学习的，数据集中不包含任何依赖数据。以下代码仅在数据集中包含依赖数据时有效-

from sklearn.model_selection import train_test_splitxTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size = 0.2, random_state = 0)

我希望拆分能够在没有y变量的情况下进行。这可能吗？

回答：

有两种“随机”分布方式。1) 100% 随机2) “随机”但“均匀”分布的数据（即相同的平均值/规范）

为了回答您的问题，我首先建议使用一个管理数据框的软件包（即Pandas）

因此，如果您想从DataFrame中获取一个50%的随机样本，并且允许重复：

 df.sample(frac=0.5, replace=True, random_state=1)

学技术