我有一个包含41个样本和6个预测变量的数据集。我在Matlab中使用了treebagger来进行分类树的构建。尽管袋外误差很高,模型仍然准确预测了所有41个标签。
但当我尝试使用K折交叉验证来验证模型时,验证准确率只有41%。这让我感到困惑。
我的另一个问题是,当我尝试对已经构建的集成模型进行交叉验证时,K折算法是如何工作的?任何帮助都将不胜感激。
回答:
你不能用相同的数据进行训练和测试。这样的验证是没有意义的。
K折交叉验证正是为了防止这种情况。你在一个子集上进行训练,并在剩余的元素上进行测试。通过使用随机子集反复进行训练和测试,可以提高验证准确率(不是分类准确率)。
你不能对已经构建好的分类器使用K折交叉验证进行测试。那样做毫无意义。