我有一个不平衡的数据集。因此,在使用分类器时表现非常差。这是一个二元分类问题,我使用了随机森林
作为分类器。真负例
与真正例
的比例为7:1。所以我尝试解决这个问题,使用了子集评估器
和随机森林
,并使用最佳优先搜索
来找出重要的属性。然后,我只使用数据集中重要的属性和类属性,丢弃了所有其他属性。接着,我再次在数据集上执行随机森林
。现在表现变得更加差了。真负例
和真正例
的比例变成了12:1。我在整个过程中使用了Weka。
我想知道属性评估器是否适用于不平衡数据集?
谢谢你。
回答:
如果一组属性与多数类标签高度相关,那么这会加剧不平衡现象也就不足为奇了。毕竟,你是在移除与少数类标签相关的属性。