Home IT技术理解KMeans算法的质量

理解KMeans算法的质量

IT技术 xiaolong · 2025年4月11日 · 0 Comment

在阅读了KMeans的不平衡因子之后，我试图理解这是如何运作的。我的意思是，从我的例子来看，因子的值越小，KMeans聚类的质量就越好，即其聚类的平衡性越好。但是这个因子的纯粹数学解释是什么？这是已知的量还是其他什么东西？

以下是我的例子：

C1 = 10C2 = 100pdd = [(C1,10), (C2, 100)]n = 2        <-- #clusterstotal = 110  <-- #pointsuf = 10 * 10 + 100 * 100uf = 100100 * 2 / 12100 = 16.5

C1 = 50C2 = 60pdd = [(C1, 50), (C2, 60)]n = 2        total = 110  uf = 2500 + 3600uf = 6100 * 2 / 12100 = 1.008

C1 = 1C2 = 1pdd = [(C1, 1), (C2, 1)]n = 2       total = 2uf = 2uf = 2 * 2 / 2 * 2 = 1

回答：

这似乎与基尼指数有关，基尼指数是一种熵的度量方法，它也使用平方计数的总和。

正如在Cross Validated: 理解KMeans算法的质量中所说的那样。

apache-spark data-science discrete-mathematics k-means machine-learning

发表回复取消回复