我正在尝试对我的数据集使用决策树分类,我的数据集包含2个特征和1个依赖变量,数据看起来像这样:年龄 薪水 购买(Y/N)
26 43000 0
17 57000 0
19 76000 0
27 58000 0
27 84000 0
32 150000 1
25 33000 0
如果我使用
classifier = rpart(formula = Purchased ~ ., data = training_set)
我得到的结果是
2 4 5 9
0.03296703 0.03296703 0.03296703 0.03296703
我需要得到的不是概率,而是最可能的结果。但当我使用
y_pred = predict(classifier, newdata = test_set[-3], type = 'class')
我得到
Error in predict.rpart(classifier, newdata = test_set[-3], type = “class”) : Invalid prediction for “rpart” object
你能帮我解决这个问题吗?
回答:
找到了解决方案。我应该将依赖变量编码为因子:
dataset$Purchased = factor(dataset$Purchased, levels = c(0, 1))
添加了这行代码后,一切正常工作。