我有一个类别大约有100个数据元素,另一个类别大约有6000个数据元素。当我使用这些数据创建SVM时,无论我尝试预测什么新元素,它总是返回多数类别的标签。有没有办法在sklearn的SVM中对少数类别的错误分类进行惩罚,这样我就可以使用所有数据元素,而不必从多数类别中抽样100个元素来进行测试?
回答:
SVC有以下参数可供使用
class_weight : {dict, 'auto'}, optional 将类别i的参数C设置为class_weight[i]*C,用于 SVC。如果未指定,所有类别都被假定为权重为1。'auto'模式使用y的值 自动调整权重,使其与类别频率成反比。