我在一个我无法控制且将在一个月内放弃的环境中使用Kmeans()
。当前安装的是Spark 1.6.2版本。
在我离开之前,是否值得付出代价去推动“他们”升级到Spark 2.0.0?换句话说,Spark 2.0.0在使用Spark Mllib KMeans()时是否引入了任何显著的改进?
对我来说,质量比速度更为重要。
回答:
可能性不大。
Spark 2.0.0并未对核心RDD API进行任何显著的改进,而KMeans
的实现自1.6版本以来变化不大,仅在SPARK-15322、SPARK-16696和SPARK-16694中引入了相对显著的变化。
如果你使用ML API,可能会有一些与SPARK-14850相关的改进,但总体来说,我没有看到任何改变游戏规则的因素。