我是数据挖掘的新手,正在尝试训练决策树,但我选择的数据集非常偏倚,因此得到的结果也存在偏倚。我在网上搜索过,发现了平衡准确率(balanced accuracy),但我对结果并不满意。
如果我以1000个YES
和1000个NO
的方式对数据集进行抽样,使其比例相等,这样做是否是个好主意?
回答:
处理类别不平衡的一种方法是对较大的类别进行欠采样,使类别分布大致达到一半对一半的比例。
你的问题的答案是肯定的,前提是1000是较小类别的数量,这样你损失的较大类别的数据点会较少。
注意:在从较大类别的数据点中选择时,尽量避免选择那些缺失值较多的数据点。