如果数据集中没有依赖变量,如何在Python编程语言中将数据集(CSV)拆分为训练和测试数据?
我目前正在进行的项目是基于机器学习的,数据集中不包含任何依赖数据。以下代码仅在数据集中包含依赖数据时有效-
from sklearn.model_selection import train_test_splitxTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size = 0.2, random_state = 0)
我希望拆分能够在没有y
变量的情况下进行。这可能吗?
回答:
有两种“随机”分布方式。1) 100% 随机2) “随机”但“均匀”分布的数据(即相同的平均值/规范)
为了回答您的问题,我首先建议使用一个管理数据框的软件包(即Pandas)
有关信息请查看链接:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html
因此,如果您想从DataFrame中获取一个50%的随机样本,并且允许重复:
df.sample(frac=0.5, replace=True, random_state=1)