如何利用未来未知的数据?

我有两个数据集。df1 存储关于餐馆的数据,df2 是天气数据。

df1        date  how many customers came  Sales($)  how many pokes used (kg) ...0  20180101                     120     44520                       581  20180102                     270     57950                       602  20180103                     290     65320                       90...df2        date  temperature  precipitation ...0  20180101           35          0.21  20180102           23          0.52  20180103           31          0.6...

我想建立一个模型来预测未来某一天会使用多少个pokes。

我无法知道未来会有多少顾客到来,以及未来会有多少销售额。所以我只使用天气数据来构建模型。

我尝试使用天气数据来预测sales,然后使用天气数据和预测的sales数据来预测how many pocks used,但结果甚至比仅使用天气数据的模型还要差。

有什么方法可以利用df1中的其他数据吗?


回答:

将两个数据框基于date特征合并,并使用未来已知的所有特征来训练模型。这将是你的第一种方法。你没有提到其他特征会是什么样,所以我们无法真正指出哪些特征可能重要,以及你是否应该使用任何数据归一化或缩放方法。

你的第二种方法将是基于天气数据训练一个模型,并尝试预测顾客数量,然后使用天气数据以及预测的顾客数据来创建模型。这种特定方法相当冒险,因为顾客预测中的小错误可能会导致pokes预测的重大变化。

另外,请说明你目前使用的是哪种机器学习模型来进行预测,因为并不是每个模型都适用于每个数据集。

Related Posts

为什么我们在K-means聚类方法中使用kmeans.fit函数?

我在一个视频中使用K-means聚类技术,但我不明白为…

如何获取Keras中ImageDataGenerator的.flow_from_directory函数扫描的类名?

我想制作一个用户友好的GUI图像分类器,用户只需指向数…

如何查看每个词的tf-idf得分

我试图了解文档中每个词的tf-idf得分。然而,它只返…

如何修复 ‘ValueError: Found input variables with inconsistent numbers of samples: [32979, 21602]’?

我在制作一个用于情感分析的逻辑回归模型时遇到了这个问题…

如何向神经网络输入两个不同大小的输入?

我想向神经网络输入两个数据集。第一个数据集(元素)具有…

逻辑回归与机器学习有何关联

我们正在开会讨论聘请一位我们信任的顾问来做机器学习。一…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注