我使用 from pyspark.ml.clustering import KMeans
库来进行KMeans聚类。我想确保聚类移动次数不超过10次。我应该使用哪个参数来实现这一点?我认为应该是 maxIter=10
,但不太确定。哪个更好? maxIter=10
还是 initSteps=10
回答:
initSteps
与KMeans初始化步骤的执行次数有关。而 maxIter
则是聚类运行的最大迭代次数。为了你的目的,设置 initSteps=10
并不能确保聚类移动次数仅为10次。我在PySpark中没有找到相关的例子,但在Sklearn中你可以参考这个例子来查看KMeans初始化的效果。