Home IT技术从机器学习算法的角度看h2o.ai和SparkMLlib的区别

从机器学习算法的角度看h2o.ai和SparkMLlib的区别

IT技术 xiaolong · 2025年4月12日 · 0 Comment

目前，我正在使用h2o.ai和SparkMLlib进行机器学习库的调查。我发现h2o.ai库支持的机器学习算法数量比SparkMLlib多，并且将Spark数据框划分为训练集和测试集似乎比较困难（需要将Spark数据框转换为R/h2o数据框，这也非常耗时和耗资源）。

使用h2o.ai库相较于SparkMLib或反之的其他优势/劣势是什么？ 我关注的是基于R的实现（SparkR），因此h2o的(as.h2o)和SparkMLlib的(as.DataFrame)数据框是不同的。

回答：

部分答案我通过以下链接找到了：http://datasocial.onsocialengine.com/post/4171645/spark-mllib-or-h2o

这里提供了详细的比较分析：https://github.com/szilard/benchm-ml

基准测试结果的幻灯片：https://speakerdeck.com/szilard/benchmarking-machine-learning-tools-for-scalability-speed-and-accuracy-la-ml-meetup-at-eharmony-june-2015

基准测试结果的视频：https://vimeopro.com/eharmony/talks/video/132838730

关于机器学习库分析的技术报告：https://github.com/chauhansaurabhb/Analysis-of-H2O-vs-SparkMLlib/blob/master/MLLibrary.pdf

a-star h2o machine-learning sparkr

发表回复取消回复