我在尝试在MATLAB中获取一个预测列矩阵,但不太清楚如何编写代码。我当前的代码是 –
load DataWorkspace.matgroups = ismember(Num,'Yes');k=10;%# 交叉验证折数:%# 如果你有50个样本,将它们分成10组,每组5个样本,%# 然后用9组(45个样本)进行训练,用1组(5个样本)进行测试。%# 这将重复十次,每组都恰好用作一次测试集。%# 最后将10个折叠的结果平均以产生单一的%# 性能估计。cvFolds = crossvalind('Kfold', groups, k);cp = classperf(groups);for i = 1:k testIdx = (cvFolds == i); trainIdx = ~testIdx; svmModel = svmtrain(Data(trainIdx,:), groups(trainIdx), ... 'Autoscale',true, 'Showplot',false, 'Method','SMO', ... 'Kernel_Function','rbf'); pred = svmclassify(svmModel, Data(testIdx,:), 'Showplot',false); %# 评估并更新性能对象 cp = classperf(cp, pred, testIdx);endcp.CorrectRatecp.CountingMatrix
问题在于它实际上总共计算了11次准确率 – 每折10次,最后一次作为平均值。但如果我取每个折的个体预测并在每个循环中打印pred,准确率可理解地大大降低。
然而,我需要一个包含数据每行的预测值的列矩阵。关于如何修改代码,您有什么建议吗?
回答:
交叉验证的整个想法是获得分类器性能的无偏估计。
一旦完成,您通常只需在整个数据上训练一个模型。这个模型将用于预测未来的实例。
所以只需这样做:
svmModel = svmtrain(Data, groups, ...);pred = svmclassify(svmModel, otherData, ...);