我有一大批数据,其中一些信息是缺失的(NULL)。在学习过程中,我应该跳过这些例子还是采取其他措施?
回答:
这真的取决于数据本身以及你认为什么是合理的。如果你认为NULL信息可能有意义,一个选择是创建一个新的变量来标记那些含有NULL数据的条目。例如,如果你有带NULL值的真/假分类数据,如下所示:
1, 0, 1, NULL, NULL, 1, 1, NULL
你可以将其转换为:
1 0 1 0 0 1 1 0 <- true0 1 0 0 0 0 0 0 <- false0 0 0 1 1 0 0 1 <- NULL
类似的方法也可以用于浮点数值。
当然,如果你认为NULL值的存在没有帮助,你也可以选择丢弃这些NULL值,或者用一个合理的猜测值(比如平均值)来替换它们。