Home IT技术在Weka 3.7中RandomForest的具体实现

在Weka 3.7中RandomForest的具体实现

IT技术 xiaolong · 2025年4月7日 · 0 Comment

在审阅了Breiman（2001）的原始论文以及其他一些论坛帖子后，我对Weka的随机森林实现所使用的实际程序感到有些困惑。没有一个来源足够详细，许多甚至相互矛盾。

它具体是如何工作的，执行了哪些步骤？

我目前的理解是：

为每棵树创建一个与训练数据大小相同的自助样本
每个节点只考虑可用特征的一个随机子集，其大小可以选择（在Weka中可以选择参数）
关于使用的基础树学习器，我发现2006年的一篇帖子提到它是一个修改后的REPTree。
树完全生长且不进行修剪。
应用多数投票（在以准确率作为性能指标的情况下）

我的问题是：

是否实际使用了自助抽样？
REPTree是否仍在使用，或者自那时起算法是否已更改？

澄清这些问题对我帮助很大！

回答：

回答你的问题

确实使用了Bagging（自助聚合）。你可以在代码的第529行看到这一点
似乎使用了RandomTree，如第530行所示

这些信息来自Weka 3.7.5，我认为从版本3.6.8开始都是正确的，但我没有检查源代码。

data-mining decision-tree machine-learning random-forest weka

发表回复取消回复