使用LSTM网络编码时间序列预测

我有一个大型数据集，包含以下形式的条目：

用户ID，测量日期，数值1，数值2，…

面临的挑战是如何处理数据中的间隔。由于测量是随机进行的，因此总会存在较小和非常大的间隔。

在这里处理缺失数据的最佳方法是什么？

我考虑了以下几种方法：

我的问题是，现在最好的编码方法是什么？

目前，LSTM网络接收的是未编码的输入向量形式：

vector1, vector2,..

这些向量包含数值。

但是现在当我引入新的符号时，例如：

  s1 := <=3天未进行测量  s2 := <=7 ..

我会对它们进行独热编码。

是否最好引入一个前缀来区分这两种类型的词汇？

例如：

 1 vector -> 1, value1, value2 0 vector -> 0, 0, 1 (s1)          -> 0, 1, 0 (s2)

回答：

实际上，这两种方式都无法编码。

学技术