Play Framework结合Spark MLib与PredictionIO

早上好，

目前我正在探索为我工作的公司构建内部平台的选项。我们团队负责公司的数据库和报告工作。

随着我们的发展，我们将开发一个内部网来满足公司的一些需求。有一段时间以来，我一直在考虑使用Scala（和PlayFramework）作为我们的技术路线。

这也将涉及大量的机器学习工作，用于客户聚类、预测销售趋势等。这时我开始考虑使用Spark ML，并发现了PredictionIO。

由于我们正在将技能转向数据科学，哪种方式对我们和公司最有益且最具教育意义：

在Play和Spark之上构建所有内容，将平台和机器学习整合在同一个项目中
使用Play和PredictionIO，其中大部分功能已经准备就绪

我不是想要开启一个基于意见的问题，而是希望从你们的经验/架构/解决方案中学习。

谢谢

回答：

两种选择都很好：1. 如果你对ML还不熟悉，可以使用PredictionIO，它易于上手但长期来看会限制你的发展，2. 如果你对你的数据科学和数据工程团队有信心，可以使用spark，它拥有出色且易用的API以及广泛的ML库。不过，要将这些投入生产环境，你需要一些分布式spark知识和经验，有时要使其高效和可靠会有些棘手。

以下是选项：

spark databricks云，价格昂贵但易于使用spark，无需数据工程
PredictionIO，如果你确信他们的ML能解决你所有的业务案例
在google dataproc中使用spark，易于管理的集群，成本比aws低60%，仍需一些工程工作

总结：PredictionIO适合快速解决问题，而spark适合长期的数据科学/工程发展。你可以从databricks开始以减少专业知识的负担，然后随着进展转向dataproc以降低成本

学技术

Play Framework结合Spark MLib与PredictionIO

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复