我有一个包含邮政编码列的数据集。这些邮政编码对输出有一定的影响,我希望将其用作特征。我正在使用随机森林模型。
我需要关于如何最佳使用邮政编码列作为特征的建议。(例如,是否应该获取该邮政编码的经纬度,而不是直接输入邮政编码等。)
提前感谢!!
回答:
处理邮政编码或任何高基数分类列的常用方法称为“目标编码”或“影响编码”。在H2O中,您可以对任何分类列应用目标编码。截至H2O 3.20版本,这仅在R语言中可用,但在接下来的稳定版本3.22中,它将在所有客户端中可用(JIRA工单在此)。
如果您使用的是R语言,我的建议是尝试目标编码,同时也尝试Lauren提到的GLRM方法,并比较结果。如果您使用的是Python或其他语言,那么现在可以尝试GLRM,并在H2O 3.22发布后尝试目标编码。