RF: 一个类别的高OOB准确率和另一个类别的极低准确率，存在严重的类别不平衡

我正在使用随机森林分类器对一个包含两个类别的数据集进行分类。

分类器产生了21.52%的袋外错误率。第一类（占训练数据75%）的每类错误率为0.0059。而第二类的分类错误率非常高：0.965。

我希望能得到这种行为的解释，如果您有提高第二类准确率的建议，请告知。

期待您的帮助。

谢谢

我忘了说我在使用R，并且在上述测试中使用了节点大小1000。

在这里，我用仅10棵树和节点大小为1重复了训练（仅供参考），以下是R中的函数调用和混淆矩阵：

randomForest(formula = Label ~ ., data = chData30PixG12, ntree = 10,importance = TRUE, nodesize = 1, keep.forest = FALSE, do.trace = 50)
随机森林类型：分类
树的数量：10
每次分裂尝试的变量数量：22
袋外错误率估计：24.46%
混淆矩阵：

             Irrelevant , Relevant , class.error Irrelevant  37954      ,  4510    , 0.1062076 Relevant    8775       ,  3068    , 0.7409440

回答：

我同意@usr的观点，一般来说，当你看到随机森林几乎将每个观测值分类为多数类时，这意味着你的特征在区分这两个类别时没有提供太多信息。

一种选择是运行随机森林，使你从少数类别中过度采样观测值（而不是从整个数据集中进行替换抽样）。因此，你可以指定每棵树是在大小为N的样本上构建的，你强制N/2的观测值来自每个类别（或你选择的其他比例）。

虽然这可能会有所帮助，但绝不是万能的解决方案。找到更好的特征，这些特征能很好地区分类别，可能比调整随机森林设置更有成效。

学技术