在scikit-learn中可以有缺失值吗?它们应该如何表示?我找不到任何相关的文档说明。
回答:
scikit-learn不支持缺失值。之前在邮件列表中讨论过这个问题,但没有尝试编写处理它们的代码。
无论你做什么,不要使用NaN来编码缺失值,因为许多算法拒绝处理包含NaN的样本。
上述回答已经过时;scikit-learn的最新版本中有一个名为Imputer
的类,可以进行简单、按特征的缺失值填补。你可以将包含NaN的数组输入其中,这些NaN将被替换为相应特征的均值、中位数或众数。