我有一个庞大的数据集,包含了数值和分类变量的混合。我发现大多数特征选择技术主要集中在单独的数值或分类数据上,而不是它们的混合体。有没有适用于这种数据集的特征选择技术?
回答:
你可以尝试使用Boruta包,这个包最初是用R语言编写的,但在Python中也有可用版本。Boruta使用随机森林来对特征进行排序,但你首先需要处理数据集中所有特征的缺失值,否则Boruta会报错。更多信息请查看这里:
https://datascience.stackexchange.com/questions/31112/boruta-feature-selection-package