我在R中进行3类ROC分析时遇到了一个问题,并且得到了一个非常烦人的结果(详见这里)。现在我尝试用另一种方法来解决这个问题。数据是iris
,分类器是nnet
包中的多项式逻辑回归。代码如下:
# iris数据(3类ROC)
library(nnet)
library(pROC) # 应先安装:install.packages('pROC')
data(iris)
# 3类逻辑回归
model = multinom(Species~., data = iris, trace = F)
# 混淆矩阵(z1)&准确率(E1)
z1 = table(iris[, 5], predict(model, data = iris))
E1 = sum(diag(z1)) / sum(z1)
z1;E1
# setosa versicolor virginica
# setosa 50 0 0
# versicolor 0 49 1
# virginica 0 1 49
#[1] 0.9866667
# 预测模型(仍使用训练数据集)
pre = predict(model, data = iris, type='probs')
# AUC测量
modelroc = mean(
c(as.numeric(multiclass.roc(iris$Species, pre[,1])$auc),
as.numeric(multiclass.roc(iris$Species, pre[,2])$auc),
as.numeric(multiclass.roc(iris$Species, pre[,3])$auc)
))
modelroc
## 结果 ###
# [1] 0.9803556
我的问题是:
这种使用pROC
包的方法正确吗?
非常感谢!!!
一些相关参考:pROC
包:http://www.inside-r.org/packages/cran/pROC/docs/multiclass.roc Hand & Till(2001)
原始论文:http://link.springer.com/article/10.1023%2FA%3A1010920819831
回答:
你取了三个多类AUC的平均值,而这些AUC本身又是三个ROC曲线的AUC的平均值。所以这实际上是9个AUC的平均值。这是否是解决你问题的最佳方法,取决于你实际的问题是什么,但由于你从未提出这个问题,回答起来相当困难。我只能说,这与你提到的Hand & Till(2001)论文中描述的方法不符。