使用额外训练列将数据集分成两部分

我的数据集df总共有132行。如果我使用以下代码，它会在”train”列中随机生成”True”值的数量。有时是46，有时是50，但我希望在”train”列中精确地生成53个“True”值和79个“False”值。

train_test_per = 60/100.0df['train'] = np.random.rand(len(df)) < train_test_per

我应该在这里使用什么条件df['train'] = "condition"

如果有人能帮我解决这个问题，我将不胜感激。我尝试过解决这个问题，但由于我是新手，找不到合适的解决方案。

如果缺少任何信息，请告诉我。

回答：

为什么不使用pandas的sample功能呢，你已经有了：

df['train'] = Falsedf.loc[df.sample(n=53).index, 'train'] = True

选项2：使用np.random.choice：

train_idx = np.random.choice(df.index, size=53, replace=False)df['train'] = Falsedf.loc[train_idx, 'train'] = True

学技术