不同组别规模的精确度和召回率计算

我在任何地方都没有找到这个问题的答案,所以我希望这里有人能帮助我和其他有同样问题的人。

假设我有1000个正样本1500个负样本

现在,假设有950个真阳性(正确分类为阳性的正样本)和100个假阳性(错误分类为阳性的负样本)。

我应该使用这些原始数据来计算精确度,还是应该考虑不同组别的规模?

换句话说,我的精确度应该是:

真阳性 / (真阳性 + 假阳性) = 950 / (950 + 100) = 90.476%

还是应该是:

(真阳性 / 1000) / [(真阳性 / 1000) + (假阳性 / 1500)] = 0.95 / (0.95 + 0.067) = 93.44%

在第一个计算中,我没有考虑各组样本数量,直接使用了原始数据;而在第二个计算中,我使用了每个度量相对于其对应组的比例,以消除不同组别规模带来的偏差


回答:

回答所提问题:根据定义,精确度是通过第一个公式计算的:TP/(TP+FP)。

然而,这并不意味着你必须使用这个公式,即精确度度量。有许多其他度量,请查看这个维基页面上的表格,并选择最适合你任务的度量。

例如,阳性似然比似乎与你的第二个公式最为相似。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注