这是一个非常初级的问题。但我已经实现了随机森林算法来预测基于起始地、目的地、供应商等因素的交货所需天数。我已经使用过去12个月的数据(80%训练数据,20%测试数据)实现了RF,并且取得了不错的结果
我的问题是,在实现RF时,我已经有了交货所需的天数数据,但在未来的数据集中,我将不会有这一列。我应该如何使用这个已经训练好的模型,利用起始地、目的地、日期等进行未来的预测?
回答:
这是我的随机森林模型,如你所见,我将数据集分成了两部分:y和x。y是预测值或目标列,x是整个数据集减去y。这样你就可以使用你的训练集来预测你所需要的交货时间。
注意:这段代码是用于森林回归器的,如果你需要分类器的代码,请告诉我!
仅是数据框定义:
y = df[targetkolom] #预测列或目标列x = df.drop(targetkolom, 1) #整个数据集减去目标列
完整代码: