我正在尝试优化Python中随机森林回归器的超参数。
我有三个独立的数据集:训练/验证/测试。因此,我不想使用交叉验证方法,而是希望使用特定的验证集来调整超参数,即在这个stackoverflow帖子中描述的“第一种方法”。
现在,sklearn有一些使用交叉验证进行超参数优化的内置方法(例如这个教程),但如果我想用特定的验证集来调整我的超参数呢?我还能使用像RandomizedSearchCV这样的方法吗?
回答:
确实可以使用cv
选项。正如文档所建议的,其中一种可能的输入是训练/测试索引元组的可迭代对象:
一个产生索引数组的训练/测试分割的可迭代对象。
因此,一个包含训练和验证索引打包成元组的单一列表是可以的。