我有一个数据科学问题:我有一组数组。每个数组代表一个月的照明、加热或通风的消耗量,每一行代表一个小时的消耗量。因此,一年中的每个月,我有3个数组。
例如,一个代表2019年3月加热消耗的数组如下所示:
目的是预测一个月的消耗类型(照明、加热或通风)。因此,如果我想使用决策树或神经网络等方法,我该如何整理数据?变量是什么?通常情况下,一行是一条数据,列是变量,但在我的情况下,一组行代表“一个数据”,我不知道变量可以是什么。
我尝试计算最大值、最小值、标准差、平均值等来总结一个数组为一行。但是,我想知道是否有其他方法可以用一组数组进行这种预测。
谢谢你。
回答:
你的数据格式没有任何问题。
变量是什么?你说你想对一个完整月份的数组进行分类?那么你的变量就是整个月份的数组,而不是单个行(如你所指的)。因此,在你的模型中,一个数据就是一个月,因为这是你希望你的模型学习和预测(或分类)的内容。
此外,如果你使用神经网络架构,在训练阶段显然需要标签。你不应该为每行或每小时提供标签,而是为每个月提供一个标签。
你可以使用月份的平均值、中位数或其他统计数据来构建特征,但这基本上是神经网络的工作。
我不知道你的数据集大小,但如果你没有每个类别的多个月份,你会遇到一些问题。
希望这能让你找到正确的方向并澄清问题。
编辑:修正了拼写错误