使用LSTM网络编码时间序列预测

我有一个大型数据集,包含以下形式的条目:

用户ID,测量日期,数值1,数值2,…

面临的挑战是如何处理数据中的间隔。由于测量是随机进行的,因此总会存在较小和非常大的间隔。

在这里处理缺失数据的最佳方法是什么?

我考虑了以下几种方法:

  • 对于所有不存在的测量,使用一个特殊的向量。(这会导致不实用的训练数据,因为不存在测量的条目占据了主导)
  • 与上述方法类似,但将多个不存在的测量归为一组向量,例如,引入一个表示未进行测量的日子数量的向量。

我的问题是,现在最好的编码方法是什么?

目前,LSTM网络接收的是未编码的输入向量形式:

vector1, vector2,..

这些向量包含数值。

但是现在当我引入新的符号时,例如:

  s1 := <=3天未进行测量  s2 := <=7 ..

我会对它们进行独热编码。

是否最好引入一个前缀来区分这两种类型的词汇?

例如:

 1 vector -> 1, value1, value2 0 vector -> 0, 0, 1 (s1)          -> 0, 1, 0 (s2)

回答:

实际上,这两种方式都无法编码。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注