Home IT技术随机森林：缺失值

随机森林：缺失值

IT技术 xiaolong · 2025年5月31日 · 0 Comment

我的随机森林模型中的一个特征存在缺失值。我知道数据缺失的5个原因，并且了解所有缺失值的原因。我的问题是如何将这些信息输入到模型中？我可以为数据缺失的原因创建一个分类变量（或编码的哑变量），但当我的主要变量中存在缺失值时，如何确保随机森林能够从这个分类变量中获取信息呢？

回答：

添加另一个变量对你帮助不大，因为1）随机森林假设变量是独立的，因此你无法将两个变量纠缠在一起；2）它并不能保证会使用这个变量。

如果你想使用随机森林，你将不得不以某种方式填补缺失值。

最简单的办法是，如果你的变量在某个范围内，将缺失值设置为超出该范围的值，并编码原因。比如，如果你的变量在[-1..1]范围内，如果原因是原因#1，将缺失值设置为-101；如果是原因#2，则设置为-102，依此类推。这个方法的想法是让算法能够找到不同值之间的明显界限。

第二种方法称为MissForest，计算上稍微复杂一些。由于你不知道具体的值，关于为什么缺失的信息并不能提供太多帮助。尽管如此，你仍然可以通过迭代的方式找到最佳值来替代缺失的值。

machine-learning matlab random-forest

发表回复取消回复