我使用sklearn2pmml将我的决策树分类器序列化为一个pmml文件。我在Java中使用pmml4s来反序列化模型并使用它进行预测。
我使用下面的代码对单个传入值进行预测。这应该返回0/1/2/3/4/5/6中的一个。
Object[] result = model.predict(new String[]{"220"});
预测后的结果数组看起来像这样:
有人知道为什么会这样吗?是我输入预测值的方式有问题,还是序列化/反序列化过程中出了问题?
回答:
这是模型对每个类别的确定性。在你的例子中,这意味着它以94.5%的概率是4,或者以5.5%的概率是5。如果你只想得到一个值,你应该选择最大值的索引。
然而,你可以使用这些概率来进行额外的控制逻辑,比如当决策模糊时(两个值的概率约为0.4等)进行阈值处理。