随机森林在大数据集上的应用

我在R中有一个大型数据集(超过100万行,6列),我想用它来训练一个用于回归目的的随机森林(使用randomForest包)。不幸的是,当我尝试一次处理整个数据集时,会得到一个Error in matrix(0, n, n) : too many elements specified错误,而在处理数据子集时(即使减少到大约10,000个观测值),也会遇到cannot allocate enough memory类型的错误。

考虑到我无法在我的机器上增加更多内存,而且随机森林非常适合我试图建模的过程类型,我真的很想让这个工作起来。

任何建议或解决方案的想法都非常受欢迎。


回答:

你可能是在要求randomForest为数据创建邻近矩阵,如果你想想看,这将是极其大的:100万乘以100万。不管你将sampsize设置得多么小,都需要这样大小的矩阵。事实上,简单地在谷歌上搜索错误消息似乎证实了这一点,因为包的作者指出,在整个源代码中唯一找到n,n)的地方是在计算邻近矩阵时。

但鉴于你没有提供你实际使用的代码的任何细节,很难提供更多帮助。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注