如何在不使用独热编码的情况下，将决策树用于分类变量？

我的数据集中有200多个分类变量（非序数型）以及少数几个连续变量。我尝试过使用独热编码，但这大大增加了维度，并且导致模型得分很低。
看起来常规的scikit-learn决策树只能用于已经转换为独热编码的分类变量（对于非序数型变量），我想知道是否有办法在不使用独热编码的情况下创建决策树。我做了一些研究，发现有一个名为h2o的API可能有用，但我正在尝试在本地机器上运行它。

回答：

你可以安装适用于Python的h2o-3包，例如从h2o.ai/downloads或从pypi安装。

h2o包可以自动高效地处理分类值，建议不要先进行独热编码。

你可以在docs.h2o.ai找到大量的文档。

学技术

如何在不使用独热编码的情况下，将决策树用于分类变量？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复