RF: 一个类别的高OOB准确率和另一个类别的极低准确率,存在严重的类别不平衡

我正在使用随机森林分类器对一个包含两个类别的数据集进行分类。

  • 特征数量为512。
  • 数据比例为1:4。即,75%的数据来自第一类,25%的数据来自第二类。
  • 我使用了500棵树。

分类器产生了21.52%的袋外错误率。第一类(占训练数据75%)的每类错误率为0.0059。而第二类的分类错误率非常高:0.965。

我希望能得到这种行为的解释,如果您有提高第二类准确率的建议,请告知。

期待您的帮助。

谢谢

我忘了说我在使用R,并且在上述测试中使用了节点大小1000。

在这里,我用仅10棵树和节点大小为1重复了训练(仅供参考),以下是R中的函数调用和混淆矩阵:

  • randomForest(formula = Label ~ ., data = chData30PixG12, ntree = 10,importance = TRUE, nodesize = 1, keep.forest = FALSE, do.trace = 50)

  • 随机森林类型:分类

  • 树的数量:10

  • 每次分裂尝试的变量数量:22

  • 袋外错误率估计:24.46%

  • 混淆矩阵:

             Irrelevant , Relevant , class.error Irrelevant  37954      ,  4510    , 0.1062076 Relevant    8775       ,  3068    , 0.7409440

回答:

我同意@usr的观点,一般来说,当你看到随机森林几乎将每个观测值分类为多数类时,这意味着你的特征在区分这两个类别时没有提供太多信息。

一种选择是运行随机森林,使你从少数类别中过度采样观测值(而不是从整个数据集中进行替换抽样)。因此,你可以指定每棵树是在大小为N的样本上构建的,你强制N/2的观测值来自每个类别(或你选择的其他比例)。

虽然这可能会有所帮助,但绝不是万能的解决方案。找到更好的特征,这些特征能很好地区分类别,可能比调整随机森林设置更有成效。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注