我了解到Sparkling Water是基于Spark环境运行的H2O,因此它可以利用Spark引擎(以及所有Spark分布式结构)来分配计算任务,但就性能而言,相较于H2O这种已是分布式且可扩展的机器学习库,它有哪些优势?
此外,H2O的独立版本是否真的能够在计算机集群上管理分布式处理?
回答:
使用Sparkling Water相较于普通的H2O的主要优势在于它可以很好地融入现有的Spark流水线。如果你尚未使用Spark,那么最好只使用普通的H2O库。H2O本身已经是分布式的,因此在分布式计算方面,添加Spark并不会带来额外的价值。
H2O拥有与Spark类似的许多组件,比如分布式数据框和共享的内存计算。因此,是的,H2O能够在多核或多节点的计算机集群上管理分布式处理。这正是它的设计初衷。