我对机器学习是新手,正在尝试学习这个过程,并从使用Weka开始进行尝试。当我在Weka中加载数据并开始分类时,软件显示了如下数值:
Correctly Classified Instances 416 39.6568 %Incorrectly Classified Instances 633 60.3432 %Kappa statistic 0.091 Mean absolute error 0.4371Root mean squared error 0.4663Relative absolute error 98.4524 %Root relative squared error 98.9763 %Coverage of cases (0.95 level) 100 %Mean rel. region size (0.95 level) 100 %Total Number of Instances 1049 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class 0.310 0.231 0.377 0.310 0.340 0.084 0.554 0.448 16-18 0.271 0.167 0.460 0.271 0.341 0.123 0.501 0.359 19+ 0.599 0.511 0.382 0.599 0.467 0.084 0.570 0.395 All AgeWeighted Avg. 0.397 0.306 0.407 0.397 0.384 0.098 0.541 0.399
通过查看这些数值,我可以推测我的数据质量不佳,因为正确分类的实例数是37.65,且错误率很高。但TP率和精确度似乎处于可接受的水平。
这让我感到困惑,我想知道如何根据这些数字来评判模型?这是否意味着我的数据预处理得不好?
回答:
你需要做一个混淆矩阵来获取准确率和精确度。下面是链接,希望对你有帮助。
http://www2.cs.uregina.ca/~dbd/cs831/notes/confusion_matrix/confusion_matrix.html