选择基于阈值0.5计算的F1分数的模型是否等同于选择基于精确召回曲线下面积的模型？

https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc 提供了关于准确率、AUROC、F1和AUPR的良好总结。

在比较同一数据集上不同模型的性能时，根据具体用例，人们可能会选择准确率、AUROC、AUPR或F1。

但有一点我还不太清楚：“基于阈值0.5的F1分数（精确率和召回率的调和平均数）选择模型，是否与基于精确召回曲线下面积选择模型的结果相同？”

如果是，为什么？

回答：

这绝对不是，原因非常简单且根本：AUC分数（无论是ROC曲线还是PR曲线）实际上给出了模型在整个阈值范围内的平均性能；仔细查看链接的文档，你会注意到关于PR AUC的以下内容（原文强调）：

你也可以将PR AUC视为对每个召回阈值计算的精确率分数的平均值。你还可以根据需要调整或裁剪召回阈值，以适应你的业务需求。

并且你可以使用PR AUC

当你想选择适合业务问题的阈值时

一旦你选择了任何特定的阈值（在精确率、召回率、F1等方面），你就完全离开了AUC分数（ROC或PR）的领域——你处于曲线上的一个单点，曲线下的平均面积不再有用（甚至没有意义）。

我在其他地方已经论述了为什么AUC分数可能具有误导性，因为大多数人认为它们提供的与实际提供的不一样，即模型在整个阈值范围内的性能，而人们将要部署的（因此对其性能感兴趣的）必然涉及一个特定的阈值。

学技术