使用runif将数据集拆分为训练集和测试集

我有一个关于命令的问题。我们在课堂上使用runif来创建一个训练集，这个训练集应该包含数据集的50%。（我们基于这个训练集开发了一个决策树）。但我仍然无法理解这个命令背后的逻辑，有人能向我解释这是如何工作的吗？

我理解决策树，以及拆分数据集背后的逻辑，我的疑问只是关于这个命令是如何工作的。

inTrain <- runif(nrow(USArrests)) < 0.5

回答：

您有一个名为USArrests的数据集，其长度为nrow(USArrests)，为了简化起见，我们假设是100。因此，runif(nrow(USArrests))会生成100个均匀分布的随机数，即为数据集中的每一行生成一个数。

接下来，您的表达式runif(nrow(USArrests)) < 0.5检查每个数是否小于0.5，返回TRUE或FALSE。这会给您一个长度为100（或nrow(USArrests)）的逻辑向量，用于指示某行属于训练集还是测试集。

虽然没有显示，但最终您可以通过以下方式选择训练数据：

USArrests[inTrain,]

以及通过以下方式选择测试数据：

USArrests[-inTrain,]

学技术