在R中使用H2O将两个随机森林模型的树模型合并成一个随机森林模型

我对机器学习领域还比较陌生，请原谅我提出的一些问题可能非常基础。

当前情况：总体目标是试图改进在超级计算机集群上运行的R语言中h2o包的一些代码。然而，由于数据量过大，单个节点使用h2o需要超过一天的时间，因此我们决定使用多个节点来运行模型。我想到了一个主意：

（1）分配每个节点构建（nTree/num_node）棵树并保存到一个模型中；

（2）在集群上的每个节点运行（nTree/num_node）棵树的森林；

（3）将树合并回原来的森林，并使用平均的测量结果。

后来我意识到这样做可能有风险。但由于我不是专注于机器学习的程序员，我找不到实际支持或反对的声明。

问题：

我可以在这里提供一个涉及实际数字的例子：

我有一个随机森林任务，数据有8万行和2千列，希望树的数量为64。我所做的是在每个节点上运行整个数据集，并在每个节点上放置16棵树，四个节点各自生成一个RF模型。我现在正试图将每个模型中的树合并成一个大的RF模型，并平均来自这四个模型的测量结果。

回答：

没有必要合并模型。与提升方法不同，随机森林中的每一棵树都是独立生长的（只要在每个节点启动RF之前不设置相同的种子即可！）。

你基本上是在做随机森林本身会做的事情，即生长X棵独立的树，然后平均投票结果。许多软件包提供了指定核心数或线程数的选项，以便利用RF的这一特性。

在你的情况下，由于每个节点的树数量相同，你会得到4个“模型”，但这些实际上只是16棵树的集合。要使用它们，我建议你保持这4个模型分开，当你需要预测时，平均来自这4个模型的预测。假设你会多次这样做，你可以编写一个小的包装函数来使用4个模型进行预测并平均输出结果。

学技术