Home IT技术如何在随机森林模型训练中最佳使用邮政编码？

如何在随机森林模型训练中最佳使用邮政编码？

IT技术 xiaolong · 2025年5月22日 · 0 Comment

我有一个包含邮政编码列的数据集。这些邮政编码对输出有一定的影响，我希望将其用作特征。我正在使用随机森林模型。

我需要关于如何最佳使用邮政编码列作为特征的建议。（例如，是否应该获取该邮政编码的经纬度，而不是直接输入邮政编码等。）

提前感谢！！

回答：

处理邮政编码或任何高基数分类列的常用方法称为“目标编码”或“影响编码”。在H2O中，您可以对任何分类列应用目标编码。截至H2O 3.20版本，这仅在R语言中可用，但在接下来的稳定版本3.22中，它将在所有客户端中可用（JIRA工单在此）。

如果您使用的是R语言，我的建议是尝试目标编码，同时也尝试Lauren提到的GLRM方法，并比较结果。如果您使用的是Python或其他语言，那么现在可以尝试GLRM，并在H2O 3.22发布后尝试目标编码。

feature-selection h2o machine-learning random-forest zipcode

发表回复取消回复