在生产环境中部署R模型的选项

考虑到大数据的迅猛发展,令人惊讶的是在生产环境中部署预测模型的选项似乎并不多。

我了解到开源的PMML可以用来将模型导出为XML规范。然后可以用于数据库内的评分/预测。然而,要使其工作似乎需要使用Zementis的PMML插件,这意味着解决方案并非真正开源。是否有更简单的开源方法将PMML映射到SQL以进行评分?

另一个选项是使用JSON而不是XML来输出模型预测。但在这种情况下,R模型应该放在哪里?我假设它总是需要映射到SQL…除非R模型可以与数据放在同一服务器上,然后使用R脚本对传入数据进行运行?

还有其他选项吗?


回答:

答案真的取决于你的生产环境是什么。

如果你的“大数据”在Hadoop上,你可以尝试这个相对较新的开源PMML“评分引擎”,称为Pattern

否则,除了编写自定义模型特定代码外,你别无选择,只能在你的服务器上运行R。你可以使用save将拟合的模型保存为.RData文件,然后在服务器上使用load并运行相应的predict。(这肯定会很慢,但你总是可以尝试通过增加更多的硬件来解决。)

具体如何操作真的取决于你的平台。通常有办法添加用R编写的“自定义”函数。这个术语是UDF(用户定义函数)。在Hadoop中,你可以向Pig添加这样的函数(例如https://github.com/cd-wood/pigaddons),或者你可以使用RHadoop编写简单的map-reduce代码来加载模型并在R中调用predict。如果你的数据在Hive中,你可以使用Hive TRANSFORM调用外部R脚本。

还有特定供应商的方法,可以将用R编写的函数添加到各种SQL数据库中。再次在文档中查找UDF。例如,PostgreSQL有PL/R

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注