我使用的是随机森林算法。我的测试准确率是70%,而训练准确率只有34%?该怎么办?我如何解决这个问题?
回答:
Test
准确率不应高于train
,因为模型是为后者优化的。导致这种情况发生的可能原因包括:
-
你没有对测试使用相同的数据源。你应该进行适当的训练/测试分割,使两者的基础分布相同。很可能你为
test
提供了一个完全不同(且更容易处理)的数据集。 -
应用了不合理的高度
regularization
。即便如此,也需要存在“测试数据分布与训练数据分布不同”的某种因素,才会出现这种情况。