我有两个数据集。df1 存储关于餐馆的数据,df2 是天气数据。
df1 date how many customers came Sales($) how many pokes used (kg) ...0 20180101 120 44520 581 20180102 270 57950 602 20180103 290 65320 90...df2 date temperature precipitation ...0 20180101 35 0.21 20180102 23 0.52 20180103 31 0.6...
我想建立一个模型来预测未来某一天会使用多少个pokes。
我无法知道未来会有多少顾客到来,以及未来会有多少销售额。所以我只使用天气数据来构建模型。
我尝试使用天气数据来预测sales
,然后使用天气数据和预测的sales
数据来预测how many pocks used
,但结果甚至比仅使用天气数据的模型还要差。
有什么方法可以利用df1
中的其他数据吗?
回答:
将两个数据框基于date
特征合并,并使用未来已知的所有特征来训练模型。这将是你的第一种方法。你没有提到其他特征会是什么样,所以我们无法真正指出哪些特征可能重要,以及你是否应该使用任何数据归一化或缩放方法。
你的第二种方法将是基于天气数据训练一个模型,并尝试预测顾客数量,然后使用天气数据以及预测的顾客数据来创建模型。这种特定方法相当冒险,因为顾客预测中的小错误可能会导致pokes
预测的重大变化。
另外,请说明你目前使用的是哪种机器学习模型来进行预测,因为并不是每个模型都适用于每个数据集。