Home IT技术使用偏倚数据集训练决策树

使用偏倚数据集训练决策树

IT技术 xiaolong · 2025年4月10日 · 0 Comment

我是数据挖掘的新手，正在尝试训练决策树，但我选择的数据集非常偏倚，因此得到的结果也存在偏倚。我在网上搜索过，发现了平衡准确率（balanced accuracy），但我对结果并不满意。

如果我以1000个YES和1000个NO的方式对数据集进行抽样，使其比例相等，这样做是否是个好主意？

回答：

处理类别不平衡的一种方法是对较大的类别进行欠采样，使类别分布大致达到一半对一半的比例。

你的问题的答案是肯定的，前提是1000是较小类别的数量，这样你损失的较大类别的数据点会较少。

注意：在从较大类别的数据点中选择时，尽量避免选择那些缺失值较多的数据点。

classification decision-tree machine-learning

发表回复取消回复