分类中错误率的定义及其原因

分类中错误率的具体定义是什么?为什么一些研究人员在报告结果时使用错误率而不是准确率?我正在尝试将我的文本分类结果与文献中的其他方法进行比较,但他们使用的是错误率而不是准确率,我找不到计算我方法错误率的具体定义/公式。


回答:

对于分类,你的输出是离散的(就像是将物品放入桶中),因此准确率有一个非常直接的定义:

准确率 = (分类正确的数量)/(分类总数)

错误率同样简单:

错误率 = 1 – 准确率 = 1 – (分类正确的数量)/(分类总数)

= (分类错误的数量)/(分类总数)

请注意,对于具有连续输出的任务,情况要复杂得多。如果不是将物品放入桶中,而是要求模型将物品放在数轴上,那么准确率就不再是“对”或“错”的问题,而是我的模型有多接近正确的答案。这可能是平均接近度、中位数接近度等。还有更复杂的度量,主要区别在于它们如何重视距离的增加。或许,稍微偏离一点远比偏离很多要好得多,因此使用均方根误差度量是合适的。另一方面,如果超过某个小范围的偏离是不可接受的,无论是稍微偏离还是大幅偏离,那么使用对数误差度量会更好。


回答你问题的最后部分:在离散情况下,为什么会选择准确率而不是错误率?一个原因是视觉效果:“99%准确”传达的心理信息与“错误率为1%”不同。此外,准确率从99%增加到99.9%,准确率增加了1%,但错误率从1%减少到0.1%,错误率减少了90%,尽管两者表达的是相同的实际变化。

除此之外,这可能是个人的偏好或写作风格。

编辑:你可能还对统计学Stack Exchange上的这个帖子感兴趣

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注