Home IT技术二元分类中不平衡数据集的问题

二元分类中不平衡数据集的问题

IT技术 xiaolong · 2025年5月28日 · 0 Comment

我有一个二元分类问题，其中数据的分布是这样的：{0:85%,1:15%}。我已经尝试了重新加权类权重和其他抽样方法。但我使用的所有方法都给我带来了不满意的结果。我的数据集是(91125,57)。

Accuracy:1F1-Score:1F2-Score:1Precision:1Recall:1AUCROC:1Kappa:1

还有其他方法可以处理这种情况吗？

回答：

请确保在将数据输入分类器之前，从特征中删除目标变量：

X = df.drop('target',axis=1) y = df['target']

我还建议检查一些独立变量是否与目标高度相关。这可能会让你了解是什么导致了不现实的完美分类：

import seaborn as snssns.heatmap(X_train.corr())

data-science imbalanced-data machine-learning python

发表回复取消回复