在不同平台上使用PMML模型进行评分的差异

我在R中构建了一个玩具版的随机森林模型(使用caret包中的German Credit数据集),将其导出为PMML 4.0格式,并部署到Hadoop上,使用了Cascading Pattern库。

我遇到了一个问题,Cascading Pattern对相同数据的评分(在二元分类问题中)与R中的相同模型不同。在200个观测值中,有2个评分不同。

这是为什么呢?这是否可能是由于随机森林实现的差异所导致的?


回答:

German Credit数据集代表了一种分类问题。分类型随机森林模型的获胜分数只是成员决策树中最常见的类别标签。

假设你有一个包含100个决策树的随机森林模型,其中50个决策树预测“信用良好”,另外50个决策树预测“信用不良”。RCascading Pattern可能以不同的方式解决这种平局情况——一个选择先看到的分数,另一个选择最后看到的分数。你可以尝试重新训练你的随机森林模型,使用奇数个成员决策树(即使用一些不能被二整除的值,如99或101)。

PMML规范要求返回先看到的分数。我不确定Cascading Pattern是否关注这些细节。你可以尝试使用一个名为JPMML-Cascading的替代解决方案。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注