Home IT技术二元决策树模型在其中一个标签比例几乎为零时的应用

二元决策树模型在其中一个标签比例几乎为零时的应用

IT技术 xiaolong · 2025年5月25日 · 0 Comment

我想构建一个有两个选项的决策树来进行预测，即“是”或“不是”。我正在使用的数据集中，“是”的答案占99%，而“不是”的答案仅占1%。当我运行模型时，准确率达到了97%。

这是一个有效的模型吗？在处理这种不平衡比例的数据时，有没有需要考虑的因素？

我担心由于“是”的数据量很大，模型通过回答所有问题都是“是”而变得非常准确。“不是”的答案对于这种用例非常重要，实际上，这是我们想要识别的目标。

回答：

不，您的基准应该设定为99%。因为如果使用基本平均值来预测（结果总是预测“是”），模型的准确率将达到99%。在这种情况下，最好使用ROC或AUROC来评估，而不是准确率。当处理极度不平衡的数据时，通常的经验法则是以主导类别的数据比例作为基准。

decision-tree machine-learning

发表回复取消回复