caret: 尝试预测但预测行数不同

我创建并调整了多个模型,但在尝试预测时遇到了问题。我首先运行以下代码来调整LDA模型。

library(MASS)library(caret)library(randomForest)data(survey)data<-survey#create training and test setsplit <- createDataPartition(data$W.Hnd, p=.8)[[1]]train<-data[split,]test<-data[-split,]#creating training parameterscontrol <- trainControl(method = "cv",                        number = 10,                         p =.8,                         savePredictions = TRUE,                         classProbs = TRUE,                         summaryFunction = twoClassSummary)#fitting and tuning modellda_tune <- train(W.Hnd ~ . ,             data=train,             method = "glm" ,            metric = "ROC",            trControl = control)

然而,当我运行 results <- predict(rf_tune, newdata=test) 时,

输出只有32行,而测试集有46行。这是个问题,因为我创建了一个包含多个模型预测值的测试结果data.frame,以便使用混淆矩阵进行分析。例如,当我运行以下代码时

results<-data.frame(obs = test$W.Hnd, lda = predict(lda_tune, newdata = test))

我得到了错误 Error in$<-.data.frame(tmp, "rf_results", value = c(2L, 2L, 2L, : replacement has 32 rows, data has 46

能有人解释一下为什么caret在有明显46个值需要预测的情况下,或者当我明确调用模型预测测试集中的值时,返回了32个预测值吗?


回答:

运行你的代码时,我这边出现了错误。twoClassSummary返回了一个错误。但忽略这一点,你先是提到lda_tune,后来又提到rf_tune。

考虑到这些问题,问题出在你的测试集中有缺失值。如果你检查 nrow(test[complete.cases(test), ]),你会发现它返回了33个案例。这正是predict返回的值。

我添加了下面的代码供参考。包括rf_tune和lda_tune及其结果。

library(MASS)library(caret)library(randomForest)data(survey)data<-survey#create training and test setsplit <- createDataPartition(data$W.Hnd, p=.8)[[1]]train<-data[split,]test<-data[-split,]#creating training parameterscontrol <- trainControl(method = "cv",                        number = 10,                         p =.8,                         savePredictions = TRUE,                         classProbs = TRUE)#fitting and tuning modellda_tune <- train(W.Hnd ~ . ,                   data=train,                   method = "glm" ,                  metric = "ROC",                  trControl = control)rf_tune <- train(W.Hnd ~ . ,                   data=train,                   method = "rf" ,                  metric = "ROC",                  trControl = control)lda_results <- data.frame(obs = test$W.Hnd[complete.cases(test)], lda = predict(lda_tune, newdata = test))rf_results <- data.frame(obs = test$W.Hnd[complete.cases(test)], lda = predict(rf_tune, newdata = test))

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注