https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc 提供了关于准确率、AUROC、F1和AUPR的良好总结。
在比较同一数据集上不同模型的性能时,根据具体用例,人们可能会选择准确率、AUROC、AUPR或F1。
但有一点我还不太清楚:“基于阈值0.5的F1分数(精确率和召回率的调和平均数)选择模型,是否与基于精确召回曲线下面积选择模型的结果相同?”
如果是,为什么?
回答:
这绝对不是,原因非常简单且根本:AUC分数(无论是ROC曲线还是PR曲线)实际上给出了模型在整个阈值范围内的平均性能;仔细查看链接的文档,你会注意到关于PR AUC的以下内容(原文强调):
你也可以将PR AUC视为对每个召回阈值计算的精确率分数的平均值。你还可以根据需要调整或裁剪召回阈值,以适应你的业务需求。
并且你可以使用PR AUC
当你想选择适合业务问题的阈值时
一旦你选择了任何特定的阈值(在精确率、召回率、F1等方面),你就完全离开了AUC分数(ROC或PR)的领域——你处于曲线上的一个单点,曲线下的平均面积不再有用(甚至没有意义)。
我在其他地方已经论述了为什么AUC分数可能具有误导性,因为大多数人认为它们提供的与实际提供的不一样,即模型在整个阈值范围内的性能,而人们将要部署的(因此对其性能感兴趣的)必然涉及一个特定的阈值。