我有一个包含4个类别的分类任务,我使用机器学习分类器(如SVM等)来解决这个问题。
对于4个类别,可以使用哪些统计度量?我肯定会使用p值(结合置换检验),但我还需要更多度量。
一些有趣的度量包括真阳性率、真阴性率、阳性预测值、阴性预测值、ROC曲线下面积、PR曲线下面积……但我认为这些度量都只适用于两类分类。
回答:
有几种可用的度量,在以下论文中有描述:
Sokolova, Marina, and Guy Lapalme. “A systematic analysis of performance measures for classification tasks.” Information Processing & Management 45.4 (2009): 427-437.
参见第4页(430页)的表3 – 它包含了8个度量的简要描述和公式;选择最适合你任务的度量。