我正在使用RTextTools来训练和分类来自MySQL表的数据。我有一个名为id
的字段,用于标识数据库中的每个文档。然而,在使用以下代码后,id
字段不再存在。
matrix <- create_matrix(cbind(data$text,data$id),language="english", removeNumbers=TRUE,removeSparseTerms=.998)corpus <- create_corpus(matrix,as.numeric(data$valid),trainSize=1:750, testSize=751:1000,virgin=FALSE)SVM <- train_model(corpus,"SVM")SVM_CLASSIFY <- classify_model(corpus, SVM)
如上所述,data$id
似乎在处理过程中丢失了。有什么办法可以保持ID与数据的关联吗?
回答:
您可以使用cbind
命令将ID列添加回输出。例如:
output <- cbind(data$id,SVM_CLASSIFY)