选择基于阈值0.5计算的F1分数的模型是否等同于选择基于精确召回曲线下面积的模型?

https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc 提供了关于准确率、AUROC、F1和AUPR的良好总结。

在比较同一数据集上不同模型的性能时,根据具体用例,人们可能会选择准确率、AUROC、AUPR或F1。

但有一点我还不太清楚:“基于阈值0.5的F1分数(精确率和召回率的调和平均数)选择模型,是否与基于精确召回曲线下面积选择模型的结果相同?”

如果是,为什么?


回答:

这绝对不是,原因非常简单且根本:AUC分数(无论是ROC曲线还是PR曲线)实际上给出了模型在整个阈值范围内平均性能;仔细查看链接的文档,你会注意到关于PR AUC的以下内容(原文强调):

你也可以将PR AUC视为对每个召回阈值计算的精确率分数的平均值。你还可以根据需要调整或裁剪召回阈值,以适应你的业务需求。

并且你可以使用PR AUC

当你想选择适合业务问题的阈值

一旦你选择了任何特定的阈值(在精确率、召回率、F1等方面),你就完全离开了AUC分数(ROC或PR)的领域——你处于曲线上的一个单点,曲线下的平均面积不再有用(甚至没有意义)。

我在其他地方已经论述了为什么AUC分数可能具有误导性,因为大多数人认为它们提供的与实际提供的不一样,即模型在整个阈值范围内的性能,而人们将要部署的(因此对其性能感兴趣的)必然涉及一个特定的阈值。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注