有人能解释一下为什么我们在将数据分割成训练集和测试集时要使用random_state吗? [duplicate]

我刚开始构建机器学习模型,我想知道为什么在分割数据时需要创建random_state变量。


回答:

它保存了分割的方式。如果你使用相同的数据和相同的random_state,它会生成相同的训练测试分割。这在你想在相同的数据上训练两个或多个模型并比较它们时非常有用。使用相同的数据和相同的随机分割将确保模型是在相同的数据上训练的,从而允许对性能进行苹果对苹果的比较。

Related Posts

在使用k近邻算法时,有没有办法获取被使用的“邻居”?

我想找到一种方法来确定在我的knn算法中实际使用了哪些…

Theano在Google Colab上无法启用GPU支持

我在尝试使用Theano库训练一个模型。由于我的电脑内…

准确性评分似乎有误

这里是代码: from sklearn.metrics…

Keras Functional API: “错误检查输入时:期望input_1具有4个维度,但得到形状为(X, Y)的数组”

我在尝试使用Keras的fit_generator来训…

如何使用sklearn.datasets.make_classification在指定范围内生成合成数据?

我想为分类问题创建合成数据。我使用了sklearn.d…

如何处理预测时不在训练集中的标签

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注