考虑到大数据的迅猛发展,令人惊讶的是在生产环境中部署预测模型的选项似乎并不多。
我了解到开源的PMML可以用来将模型导出为XML规范。然后可以用于数据库内的评分/预测。然而,要使其工作似乎需要使用Zementis的PMML插件,这意味着解决方案并非真正开源。是否有更简单的开源方法将PMML映射到SQL以进行评分?
另一个选项是使用JSON而不是XML来输出模型预测。但在这种情况下,R模型应该放在哪里?我假设它总是需要映射到SQL…除非R模型可以与数据放在同一服务器上,然后使用R脚本对传入数据进行运行?
还有其他选项吗?
回答:
答案真的取决于你的生产环境是什么。
如果你的“大数据”在Hadoop上,你可以尝试这个相对较新的开源PMML“评分引擎”,称为Pattern。
否则,除了编写自定义模型特定代码外,你别无选择,只能在你的服务器上运行R。你可以使用save
将拟合的模型保存为.RData文件,然后在服务器上使用load
并运行相应的predict
。(这肯定会很慢,但你总是可以尝试通过增加更多的硬件来解决。)
具体如何操作真的取决于你的平台。通常有办法添加用R编写的“自定义”函数。这个术语是UDF(用户定义函数)。在Hadoop中,你可以向Pig添加这样的函数(例如https://github.com/cd-wood/pigaddons),或者你可以使用RHadoop编写简单的map-reduce代码来加载模型并在R中调用predict
。如果你的数据在Hive中,你可以使用Hive TRANSFORM调用外部R脚本。
还有特定供应商的方法,可以将用R编写的函数添加到各种SQL数据库中。再次在文档中查找UDF。例如,PostgreSQL有PL/R。