我正在尝试编写一个考虑天气数据(温度、气压、湿度)的需求预测模型,这些数据可以逐一或一起考虑。我想使用机器学习算法来实现这一点。之前我使用线性回归进行需求预测时没有考虑天气数据,现在有了天气数据,我不确定应该使用哪种机器学习算法来完成这项任务?我是机器学习的新手,如果你能帮助我解决这个问题,我将不胜感激。
我使用Python编写代码,如果你能指导我使用任何特定的模块,那就太好了。
回答:
好的,如果你是机器学习的新手,我建议你按照以下步骤创建你的预测模型。
- 了解你的数据:手动检查你的输入变量与目标(输出)之间的关系。如果它们显示出某种线性依赖关系,你就很幸运了,但最具挑战性的是发现关系具有非线性关系的情况。
- 变量选择:你永远无法确定所有输入对于预测输出是否都是必要的。例如:如果气压和温度之间存在某种关系,或许你的机器学习算法只需要这两个输入中的一个就能预测你的输出。相反,可能有些变量实际上会干扰你的机器学习算法的预测。因此,你需要某种相关性度量来建议哪些输入与你的输出(历史数据,例如:来自UCI存储库的数据)高度相关。我建议使用皮尔逊相关系数、斯皮尔曼等级相关系数,如果你发现数据之间存在线性依赖关系。如果没有,你可以使用MIC、Relieff权重等作为非线性数据的相关性度量。
- 使用哪种机器学习算法:这完全取决于数据,或许只需多项式或最小二乘法就足够了(对于线性依赖关系),或者在最坏的情况下,你可能需要使用多层神经网络或高斯过程(对于非线性依赖关系)。推荐:正如你所说你想要使用线性回归,可以从最小二乘拟合开始。如果你仍然在理解任何概念上有问题,你可以带着一些关于你的输入如何与输出相关联的图表回来找我,我可以为你提供更好的建议。祝你好运