我有一个大型数据集,包含以下形式的条目:
用户ID,测量日期,数值1,数值2,…
面临的挑战是如何处理数据中的间隔。由于测量是随机进行的,因此总会存在较小和非常大的间隔。
在这里处理缺失数据的最佳方法是什么?
我考虑了以下几种方法:
- 对于所有不存在的测量,使用一个特殊的向量。(这会导致不实用的训练数据,因为不存在测量的条目占据了主导)
- 与上述方法类似,但将多个不存在的测量归为一组向量,例如,引入一个表示未进行测量的日子数量的向量。
我的问题是,现在最好的编码方法是什么?
目前,LSTM网络接收的是未编码的输入向量形式:
vector1, vector2,..
这些向量包含数值。
但是现在当我引入新的符号时,例如:
s1 := <=3天未进行测量 s2 := <=7 ..
我会对它们进行独热编码。
是否最好引入一个前缀来区分这两种类型的词汇?
例如:
1 vector -> 1, value1, value2 0 vector -> 0, 0, 1 (s1) -> 0, 1, 0 (s2)
回答:
实际上,这两种方式都无法编码。