在阅读了KMeans的不平衡因子之后,我试图理解这是如何运作的。我的意思是,从我的例子来看,因子的值越小,KMeans聚类的质量就越好,即其聚类的平衡性越好。但是这个因子的纯粹数学解释是什么?这是已知的量还是其他什么东西?
以下是我的例子:
C1 = 10C2 = 100pdd = [(C1,10), (C2, 100)]n = 2 <-- #clusterstotal = 110 <-- #pointsuf = 10 * 10 + 100 * 100uf = 100100 * 2 / 12100 = 16.5
C1 = 50C2 = 60pdd = [(C1, 50), (C2, 60)]n = 2 total = 110 uf = 2500 + 3600uf = 6100 * 2 / 12100 = 1.008
C1 = 1C2 = 1pdd = [(C1, 1), (C2, 1)]n = 2 total = 2uf = 2uf = 2 * 2 / 2 * 2 = 1
回答:
这似乎与基尼指数有关,基尼指数是一种熵的度量方法,它也使用平方计数的总和。
正如在Cross Validated: 理解KMeans算法的质量中所说的那样。