假设我使用20个训练数据的随机子集实现了一个随机森林算法,共有20棵树,并且可以预测4个不同的类别标签。那么,究竟什么应该被称为多数决?如果总共有20棵树,那么多数决是否需要最高票数的类别标签至少获得10票,还是只要比其他标签高即可?例如:总树数=20,类别标签为{A,B,C,D}
场景1:
A= 10票B= 4票C= 3票D = 3票
显然,A是赢家
场景2:
A= 6票B= 5票C= 5票D = 4票
在这里,A可以被称为赢家吗?
回答:
如果你在做硬决策,意思是你需要返回最佳猜测,那么是的,A是赢家。
为了区分这两种情况,你可以考虑使用软决策系统,在这种系统中,你返回赢家并附带一个置信值。这里的一个置信度示例可以是A的票数比例。那么,第一种情况将比后者更有信心。