分类中错误率的具体定义是什么?为什么一些研究人员在报告结果时使用错误率而不是准确率?我正在尝试将我的文本分类结果与文献中的其他方法进行比较,但他们使用的是错误率而不是准确率,我找不到计算我方法错误率的具体定义/公式。
回答:
对于分类,你的输出是离散的(就像是将物品放入桶中),因此准确率有一个非常直接的定义:
准确率 = (分类正确的数量)/(分类总数)
错误率同样简单:
错误率 = 1 – 准确率 = 1 – (分类正确的数量)/(分类总数)
= (分类错误的数量)/(分类总数)
请注意,对于具有连续输出的任务,情况要复杂得多。如果不是将物品放入桶中,而是要求模型将物品放在数轴上,那么准确率就不再是“对”或“错”的问题,而是我的模型有多接近正确的答案。这可能是平均接近度、中位数接近度等。还有更复杂的度量,主要区别在于它们如何重视距离的增加。或许,稍微偏离一点远比偏离很多要好得多,因此使用均方根误差度量是合适的。另一方面,如果超过某个小范围的偏离是不可接受的,无论是稍微偏离还是大幅偏离,那么使用对数误差度量会更好。
回答你问题的最后部分:在离散情况下,为什么会选择准确率而不是错误率?一个原因是视觉效果:“99%准确”传达的心理信息与“错误率为1%”不同。此外,准确率从99%增加到99.9%,准确率增加了1%,但错误率从1%减少到0.1%,错误率减少了90%,尽管两者表达的是相同的实际变化。
除此之外,这可能是个人的偏好或写作风格。
编辑:你可能还对统计学Stack Exchange上的这个帖子感兴趣