我的数据集中有200多个分类变量(非序数型)以及少数几个连续变量。我尝试过使用独热编码,但这大大增加了维度,并且导致模型得分很低。
看起来常规的scikit-learn决策树只能用于已经转换为独热编码的分类变量(对于非序数型变量),我想知道是否有办法在不使用独热编码的情况下创建决策树。我做了一些研究,发现有一个名为h2o的API可能有用,但我正在尝试在本地机器上运行它。
回答:
你可以安装适用于Python的h2o-3包,例如从h2o.ai/downloads或从pypi安装。
h2o包可以自动高效地处理分类值,建议不要先进行独热编码。
你可以在docs.h2o.ai找到大量的文档。