Home IT技术如果不平衡处理方法不起作用怎么办

如果不平衡处理方法不起作用怎么办

IT技术 xiaolong · 2025年4月13日 · 0 Comment

我目前遇到的问题是，即使使用了许多不平衡处理技术，如resampling、smote、cost-learning，分类结果仍然不理想。

具体来说，我有一个数据集，数据集中有两个类别：difficult和easy。数据集中的类别分布非常不平衡（difficult:easy = 187:13）。

我使用random forest来训练我的模型，并通过10-fold cross validation进行评估，结果显示在“无策略”一行上。

然后我使用了一些技术来处理这种不平衡问题，但实验结果非常低，如下所示（“cost-sensitive”, “smote”, “resampling”），有些值甚至低于0.1。

Methods            P(d)  R(d)  F(d)  P(e)  R(e)  F(e)  Acc -------------------------------------------------------------no strategy        0.000 0.000 0.000 0.935 0.995 0.964 0.930cost-sensitive     0.500 0.077 0.133 0.939 0.995 0.966 0.935 smote              0.500 0.077 0.133 0.939 0.995 0.966 0.935resampling         0.500 0.077 0.133 0.939 0.995 0.966 0.935

我如何改进我的结果，或者还有其他高级技术吗？提前感谢 🙂

回答：

你想要优化什么？如果是精确度或召回率，你也可以尝试更改概率阈值（例如，不是使用>0.5来判定为’easy’，你可以使用>0.2）。通过交叉验证来尝试找到最佳阈值。

另一种选择是对最常见的类别进行欠采样。因此，在一个交叉验证折叠中，创建多个包含所有’easy’类别值和少量’difficult’类别值的’折叠’，使它们平衡。在所有这些’折叠’上训练模型，然后以集成方式使用它们来预测实际的交叉验证折叠。

classification cross-validation machine-learning

发表回复取消回复