我想知道在完成分箱操作后应该怎么做。例如,其中一个特征是年龄,我的初始数据是 [11, 12, 35, 26]。
然后我应用了大小为10的分箱:
区间, 名称
[0, 10) –> 1
[10, 20) –> 2
[20, 30) –>3
[30, 40) –> 4
然后我的数据变为 [2, 2, 4, 3]。现在假设我想将这些数据放入线性回归模型中。我应该将 [2, 2, 4, 3] 视为数值特征吗?还是应该将它们视为分类特征,像是先进行独热编码,然后再输入模型?
回答:
如果你正在构建线性模型,那么对这些分箱进行独热编码可能是一个更好的选择,这样如果与目标之间存在任何线性关系,独热编码会保留这种关系。
如果你正在构建基于树的模型,比如随机森林,那么你可以将 [2, 2, 4, 3] 作为数值特征使用,因为这些模型是非线性的。
如果你在构建回归模型且不希望通过独热编码扩展特征空间,你可以将这些分箱视为分类变量,并使用均值/目标编码,或者按照每个分箱的目标均值用数字进行编码。
关于最后两种方法的更多细节,请参见这篇文章。
免责声明:我是该文章的作者。