在处理不平衡数据时,AUC是否更有效?因为在大多数情况下,如果我处理的是不平衡数据,准确率并不能提供正确的评估。即便准确率很高,模型的表现可能依然很差。如果不是AUC,哪个是处理不平衡数据的最佳衡量标准?
回答:
处理不平衡类别时,准确率并不是一个好的指标,因为如果一个类别的样本占1%,另一个类别的样本占99%,你可以将所有样本都分类为0,仍然能获得99%的准确率。
考虑到下面的混淆矩阵,你还应该分析精确率和召回率。这些指标可以告诉你假阳性和假阴性的总数。
然后你需要定义你的关注点。以预测性维护为例,假阳性是将健康的机器误分类为故障,而假阴性是将有故障的机器误分类为健康的。你可以拥有99%的准确率和极好的AUC,但精确率仍然可能是0%。