如果我有两个非常不同的数据集和两种非常不同的分类技术,有没有好的方法来结合这两个输出?我知道平均值可能有效,但有没有更相关的方法来做这件事?我听说过一些概念,比如提升(boosting)和集成学习(ensemble learning),这些方法适用吗?
回答:
解决这个问题有两种一般方法。第一种方法称为提升,使用加权投票来决定预测。主要思想是结合两种分类器的优势。
第二种方法称为堆叠,使用两个分类器的输出作为另一个分类器的特征(可能还包括其他特征,例如原始特征),并使用最终分类器的输出进行预测。
在没有更多细节的情况下,这是我能给出的最佳答案。
有关更多信息,请参见Stats.SE上的“机器学习中的装袋、提升和堆叠”。