在审阅了Breiman(2001)的原始论文以及其他一些论坛帖子后,我对Weka的随机森林实现所使用的实际程序感到有些困惑。没有一个来源足够详细,许多甚至相互矛盾。
它具体是如何工作的,执行了哪些步骤?
我目前的理解是:
- 为每棵树创建一个与训练数据大小相同的自助样本
- 每个节点只考虑可用特征的一个随机子集,其大小可以选择(在Weka中可以选择参数)
- 关于使用的基础树学习器,我发现2006年的一篇帖子提到它是一个修改后的REPTree。
- 树完全生长且不进行修剪。
- 应用多数投票(在以准确率作为性能指标的情况下)
我的问题是:
- 是否实际使用了自助抽样?
- REPTree是否仍在使用,或者自那时起算法是否已更改?
澄清这些问题对我帮助很大!
回答:
回答你的问题
这些信息来自Weka 3.7.5,我认为从版本3.6.8开始都是正确的,但我没有检查源代码。