我在使用caret比较不同的机器学习方法,尽管这些方法非常不同,但我得到的变量贡献却完全相同。
vNNet, ctree, enet, knn, M5, pcr, ridge, svmRadial 给出的变量贡献是相同的。
其中一些方法可以接受 importance = TRUE 作为输入:vNNet, enet, knn, pcr, ridge, svmRadial 可以这样做。其他的在 importance = TRUE 时会生成错误:ctree, M5。(错误信息是“出了点问题;所有RMSE指标值都缺失:”)
我的问题是,为什么不同的方法会给出相同的变量重要性?这看起来不对劲,但我看不出我哪里做错了。
library(ggplot2)library(caret)library(elasticnet)library(party)data_set <- diamonds[1:1000, c(1, 5, 6, 7, 8, 9, 10)]formula <- price ~ carat + depth + table + x + y + zset.seed(100)enet_model <- train(formula, importance = TRUE, data = data_set, method = "enet", trControl = trainControl(method = "cv"), preProc = c("center", "scale"))set.seed(100)ctree_model <- train(formula, data = data_set, method = "ctree", trControl = trainControl(method = "cv"))set.seed(Set_seed_seed)knn_model <- train(formula, importance = TRUE, data = data_set, method = "knn", preProc = c("center", "scale"), tuneGrid = data.frame(k = 1:20), trControl = training_control)varImp(enet_model)varImp(ctree_model)varImp(knn_model)
我使用的是caret 6.0-52
回答:
从 ?varImp
中可以看到:
对于没有对应
varImp
方法的模型,请参见filterVarImp
。
这些方法没有实现重要性评分,因此你得到的是无模型的测量。我可以为 enet
添加一个基于系数值的方法,但 knn
和 ctree
没有明显的方法。