Python, Scikit-learn, K-means: 参数 n_init 到底有什么作用? [duplicate]

我是 Python 的初学者。现在,我正在尝试理解来自 sklearn.cluster.KMeans 的参数 n_init 的作用。

根据文档:

n_init : int, 默认值: 10

K-means 算法运行的次数,每次使用不同的质心种子。最终结果将是 n_init 次连续运行中惯性最佳的输出。

起初,我以为它表示代码运行的次数,直到我发现了这个 有用的问题,我才意识到这是 max_iter 的作用。

参数 n_init 到底有什么作用?我真的不明白。


回答:

在 K-means 中,质心的初始位置对其收敛起着非常重要的作用。有时候,初始质心放置的方式使得在 K-means 的连续迭代中,聚类会发生剧烈的变化,甚至在达到收敛条件之前,max_iter 就已经达到,我们得到的聚类可能是不正确的。因此,这样得到的聚类可能是不正确的。为了克服这个问题,引入了这个参数。n_iter 的值基本上决定了算法应该使用多少组随机选择的质心。对于每一组不同的点,会比较聚类移动了多少距离,即如果聚类移动的距离较小,那么我们很可能接近真实/最佳解决方案。提供最佳性能的点及其相应的运行以及所有聚类标签将被返回。

如果你有兴趣,你也可以查看专门处理这个问题的 k-means++ 算法

你还可以查看 这个链接 了解更多关于初始质心重要性的细节。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注