我知道这可能是一个基本的问题,但我想要确认我是否正确地使用了训练和测试数据分割。
假设我的数据截止到2019年,我想预测未来5年的数值。
我的训练数据从1996年到2014年,测试数据从2014年到2019年。测试数据与训练数据完美契合。然后我使用这些测试数据来预测2019年到2024年的数值。
这种做法是否正确,或者我的预测也应该像测试数据一样,从2014年到2019年?
回答:
测试/验证数据用于评估你选择的预测模型。一旦你决定使用哪种模型,你应该用1996年到2019年的全部数据集来训练模型,这样你就不会丢失2014年到2019年可能有价值的信息。请注意,在处理时间序列数据时,通常序列的较新部分对你的预测比旧值更重要。