我试图使用 libsvm 来对数据进行分类,如下图所示:
从图中可以看出,蓝色和红色之间存在一个柔和的分界,但一些蓝色样本遍布整个区域,我认为“应该标记为红色”。
我无法让libsvm返回有意义的分类结果,总是得到一个平凡的解——所有点都被标记为蓝色。无论使用不同的核函数和参数值,结果都是如此。我认为调整成本变量并不能解决这个问题,因为蓝色样本的数量是红色样本的十倍。
我是不是遗漏了什么?有没有libsvm的参数可以处理这种情况?
或者SVM不适合这个任务,你能建议一些其他方法吗?
回答:
应该可以用线性SVM得到一个非平凡的解。你应该尝试不同的C值,并且由于你的数据不平衡,使用wi参数来调整每个类的权重。