不同组别规模的精确度和召回率计算

我在任何地方都没有找到这个问题的答案，所以我希望这里有人能帮助我和其他有同样问题的人。

假设我有1000个正样本和1500个负样本。

现在，假设有950个真阳性（正确分类为阳性的正样本）和100个假阳性（错误分类为阳性的负样本）。

我应该使用这些原始数据来计算精确度，还是应该考虑不同组别的规模？

换句话说，我的精确度应该是：

真阳性 / (真阳性 + 假阳性) = 950 / (950 + 100) = 90.476%

还是应该是：

(真阳性 / 1000) / [(真阳性 / 1000) + (假阳性 / 1500)] = 0.95 / (0.95 + 0.067) = 93.44%

在第一个计算中，我没有考虑各组样本数量，直接使用了原始数据；而在第二个计算中，我使用了每个度量相对于其对应组的比例，以消除不同组别规模带来的偏差

回答：

回答所提问题：根据定义，精确度是通过第一个公式计算的：TP/(TP+FP)。

然而，这并不意味着你必须使用这个公式，即精确度度量。有许多其他度量，请查看这个维基页面上的表格，并选择最适合你任务的度量。

例如，阳性似然比似乎与你的第二个公式最为相似。

学技术