随机森林的混合预测变量类型

我正在尝试使用随机森林为一个包含5个预测变量的数据集构建分类模型。其中两个预测变量是连续型，一个可以在[0, 1000]的区间内取任意实数值，另一个可以在[-10, 10]的区间内取任意实数值；一个预测变量是整数型，值域为[10000, 15000]。此外，剩下的两个预测变量是分类型，分别为{ A, B, C, D, E, F}和{NY, LA, Chicago}。对于这些不同类型的预测变量，是否需要进行预处理程序？

回答：

许多穷举搜索算法会偏向于具有更多值的变量。将变量选择和分裂选择过程分开似乎有助于解决这个问题，如这篇论文中所述。他们还在R语言中实现了一个软件包。我不知道使用更常见的方法如何避免这种情况在混合类型数据上的问题。然而，尽管这个问题会导致偏差，但根据我的经验，预测性能并没有显著差异，所以实际效果可能因人而异。这取决于你在做什么。无论如何，我建议进行一些模拟。同一个团队在BMC生物信息学上有两篇关于条件置换重要性的论文，讨论了这些问题。

学技术

随机森林的混合预测变量类型

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复