我有一个包含84个月销售数据的数据集(从2013年1月到2019年12月) – 只有月份,没有具体的日期。
Month 01 | Sale 1Month 02 | Sale 2Month 03 | Sale 3.... | ...Month 84 | Sale 84
通过可视化来看,模型似乎非常适合…但我需要进行验证….
我了解到交叉验证不支持月份,所以我做的转换是使用天数(尽管我的原始数据框中没有具体的日期信息)…
我想用前五年(60个月)的数据来测试我的模型,并保留剩余的两年(24个月)来观察模型的预测效果….
所以我做了如下操作:
cv_results = cross_validation( model = prophet, initial='1825 days', period='30 days', horizon = '60 days')
这样做合理吗?
我没有理解截止日期和预测期的概念
回答:
我也在这一点上挣扎了一段时间,但它是这么工作的。初始模型将在前1825天的数据上进行训练。它将预测接下来的60天数据(因为预测期horizon设置为60)。然后,模型将在初始期限加上周期(在本例中为1825 + 30天)上进行训练,并预测接下来的60天。它将继续这样做,每次增加30天的训练数据,然后预测接下来的60天,直到没有足够的数据来继续这个过程。
总结来说,周期是每次交叉验证迭代中添加到训练数据集中的数据量,而预测期是它将预测的时长。