在生产环境中部署R模型的选项

考虑到大数据的迅猛发展，令人惊讶的是在生产环境中部署预测模型的选项似乎并不多。

我了解到开源的PMML可以用来将模型导出为XML规范。然后可以用于数据库内的评分/预测。然而，要使其工作似乎需要使用Zementis的PMML插件，这意味着解决方案并非真正开源。是否有更简单的开源方法将PMML映射到SQL以进行评分？

另一个选项是使用JSON而不是XML来输出模型预测。但在这种情况下，R模型应该放在哪里？我假设它总是需要映射到SQL…除非R模型可以与数据放在同一服务器上，然后使用R脚本对传入数据进行运行？

还有其他选项吗？

回答：

答案真的取决于你的生产环境是什么。

如果你的“大数据”在Hadoop上，你可以尝试这个相对较新的开源PMML“评分引擎”，称为Pattern。

否则，除了编写自定义模型特定代码外，你别无选择，只能在你的服务器上运行R。你可以使用save将拟合的模型保存为.RData文件，然后在服务器上使用load并运行相应的predict。（这肯定会很慢，但你总是可以尝试通过增加更多的硬件来解决。）

具体如何操作真的取决于你的平台。通常有办法添加用R编写的“自定义”函数。这个术语是UDF（用户定义函数）。在Hadoop中，你可以向Pig添加这样的函数（例如https://github.com/cd-wood/pigaddons），或者你可以使用RHadoop编写简单的map-reduce代码来加载模型并在R中调用predict。如果你的数据在Hive中，你可以使用Hive TRANSFORM调用外部R脚本。

还有特定供应商的方法，可以将用R编写的函数添加到各种SQL数据库中。再次在文档中查找UDF。例如，PostgreSQL有PL/R。

学技术

在生产环境中部署R模型的选项

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复