我正在为一个可能有多种分类器的问题编写机器学习解决方案,这取决于数据。因此,我收集了几种分类器,每种分类器在某些条件下表现得比其他分类器更好。我正在研究元分类策略,发现有几种算法。能有人指出它们之间的根本区别吗?
回答:
投票算法是一种简单的策略,你通过聚合分类器的决策结果来实现,例如选择在大多数情况下出现的类别。堆叠/评分策略是这种概念的泛化。不仅仅是简单地说“好的,我有一个方案v
,我将用它在我的k
个分类器中选择最佳答案”,你创建了另一个抽象层,在这里你实际上是学习如何根据k
个投票来预测正确的标签。
简而言之,基本的投票/堆叠/评分方法可以概括为:
- 投票 – 你有一个固定的方法
v
,给定答案a_1,...,a_k
,结果为a=v(a_1,...,a_k)
- 堆叠 – 你将答案用作问题的新的表示形式,因此对于每个
(x_i,y_i)
,你得到(a_i_1,...,a_i_k)
,从而创建训练样本((a_i_1,...,a_i_k),y_i)
,并在此基础上训练元分类器 - 评分 – 你为每个
k
个分类器训练一个单独的元分类器,以预测其对当前点的“分类评分”,并用它来做出决策