我有一个二元分类问题,其中一个类别占了所有观察数据的99.1%(共210,000个)。为了处理数据不平衡问题,我选择了采样技术。但我不知道该怎么做:是欠采样多数类,还是过采样少数类。如果有人有建议的话?
谢谢你。
P.s. 我使用的是来自sklearn的随机森林算法。
回答:
- 过采样或
- 欠采样或
- 对少数类进行过采样并对多数类进行欠采样
这是一个超参数。通过交叉验证找出哪个方法效果最好。但要使用训练/测试/验证集。
我有一个二元分类问题,其中一个类别占了所有观察数据的99.1%(共210,000个)。为了处理数据不平衡问题,我选择了采样技术。但我不知道该怎么做:是欠采样多数类,还是过采样少数类。如果有人有建议的话?
谢谢你。
P.s. 我使用的是来自sklearn的随机森林算法。
回答:
这是一个超参数。通过交叉验证找出哪个方法效果最好。但要使用训练/测试/验证集。