我已经在数据集上应用了分类算法,并得到了以下统计数据:
正确分类实例数 684 76.1693 %
错误分类实例数 214 23.8307 %
Kappa统计量 0
平均绝对误差 0.1343
均方根误差 0.2582
相对绝对误差 100 %
根相对平方误差 100 %
总实例数 898
=== 按类别详细准确度 ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0 0 0 0 0 0.5 1
0 0 0 0 0 0.5 2
1 1 0.762 1 0.865 0.5 3
0 0 0 0 0 ? 4
0 0 0 0 0 0.5 5
0 0 0 0 0 0.5 U
加权平均值 0.762 0.762 0.58 0.762 0.659 0.5
=== 混淆矩阵 ===
a b c d e f <-- 分类为
0 0 8 0 0 0 | a = 1
0 0 99 0 0 0 | b = 2
0 0 684 0 0 0 | c = 3
0 0 0 0 0 0 | d = 4
0 0 67 0 0 0 | e = 5
0 0 40 0 0 0 | f = U
我能理解大部分数据,但是由于我是Weka的新手,所以在解释这些数值时遇到了一些问题:1. 应该报告哪个总体错误率?2. 如何解释模型的有趣之处?
回答:
1) 总体错误测量
通常会报告精确度、召回率和F-测量这三者的组合,因为每个数字代表了模型的不同方面。
如果只想要一个数字,可以使用正确(错误)分类实例的百分比或加权平均F-测量。
其他错误测量也有用,但需要更深入的统计知识(我在这方面缺乏 🙂
2) 关于模型的有趣之处
从按类别详细准确度和混淆矩阵可以看出,模型非常简单。它将所有内容分类为类别3。错误测量看起来相当成功,但这是因为数据集中76%的实例属于类别3。这个模型与常用的基线算法“最常见类别”相对应。