提前感谢您的帮助。
我正在尝试在一个包含约10000个样本的数据集上训练一个二元分类器。这个数据集是不平衡的,两类之间的比例大约为1:9。我希望增加较少出现类别的误分类成本,但无论我使用什么方法,或使用什么成本矩阵,结果都是一样的(基本上是zeroR模型的输出)。我期望在使用逻辑回归时,不同的成本矩阵至少会有一些差异,但事实并非如此。我使用的是weka 3-7-11版本。我注意到只有libLinear(不是标准分类器)的预测结果与zeroR显著不同。我在libSVM中没有注意到这种情况。这对我来说似乎很奇怪。可能发生了什么?
回答:
我已经弄清楚了发生了什么。@人名 部分正确。你不能使用“更多选项”按钮下的成本矩阵工具;它不起作用。相反,你必须选择meta/CostSensitiveClassify作为你的分类器,然后在其选项中(通过点击分类器的名称进入,不是下拉菜单中的)分配你想要的成本矩阵和实际分类器。