目前,我正在使用h2o.ai
和SparkMLlib
进行机器学习库的调查。我发现h2o.ai
库支持的机器学习算法数量比SparkMLlib
多,并且将Spark数据框划分为训练集和测试集似乎比较困难(需要将Spark数据框转换为R/h2o数据框,这也非常耗时和耗资源)。
使用h2o.ai
库相较于SparkMLib
或反之的其他优势/劣势是什么? 我关注的是基于R的实现(SparkR),因此h2o的(as.h2o)
和SparkMLlib的(as.DataFrame)
数据框是不同的。
回答:
部分答案我通过以下链接找到了:http://datasocial.onsocialengine.com/post/4171645/spark-mllib-or-h2o
这里提供了详细的比较分析:https://github.com/szilard/benchm-ml
基准测试结果的视频:https://vimeopro.com/eharmony/talks/video/132838730
关于机器学习库分析的技术报告:https://github.com/chauhansaurabhb/Analysis-of-H2O-vs-SparkMLlib/blob/master/MLLibrary.pdf