我有一个问题,我有一年的恒温器记录数据,每小时提供家庭的平均温度数据。但由于他们在年中才安装恒温器,或者他们在一周内拆除了恒温器等原因,很多数据不可用。然而,这些恒温器数据有很多相似之处。我想做的就是使用相似的时间序列来填补缺失的数据。
假设A家庭从七月份才开始记录,但从那时起他们的数据与B家庭非常相似,那么我想用B家庭的信息来预测A家庭七月之前的数据应该是什么样的。
我在考虑训练一个循环神经网络来帮我完成这个任务,但我并不确定有什么方法可以做到这一点,当我搜索论文和其他资料时,它们几乎都是基于多年的数据集,并使用前几年的数据来填补数据。我没有这些数据,所以这不是一个选项。
有谁知道如何解决这个问题,或者有我可以参考的解决类似问题的方法吗?
回答:
据我理解,你是想使用横截面数据而不是时间序列信息来填补数据。
实际上,R语言中有很多可以帮你完成这个任务的填补数据包(如果你使用的是R语言)。
你需要等间隔的数据。所以每小时一个值,如果没有数据,则需要标记为NA。理想情况下,你会有多个长度相同的时间序列数据。
然后你可以根据时间戳/小时合并这些时间序列。
之后,你可以使用像mice
、missForest
、imputeR
这样的填补数据包,只需一行代码就能完成。这些包会利用不同时间序列之间的相关性来估计这些序列中的缺失值。