理解KMeans算法的质量

在阅读了KMeans的不平衡因子之后,我试图理解这是如何运作的。我的意思是,从我的例子来看,因子的值越小,KMeans聚类的质量就越好,即其聚类的平衡性越好。但是这个因子的纯粹数学解释是什么?这是已知的量还是其他什么东西?


以下是我的例子:

C1 = 10C2 = 100pdd = [(C1,10), (C2, 100)]n = 2        <-- #clusterstotal = 110  <-- #pointsuf = 10 * 10 + 100 * 100uf = 100100 * 2 / 12100 = 16.5

C1 = 50C2 = 60pdd = [(C1, 50), (C2, 60)]n = 2        total = 110  uf = 2500 + 3600uf = 6100 * 2 / 12100 = 1.008

C1 = 1C2 = 1pdd = [(C1, 1), (C2, 1)]n = 2       total = 2uf = 2uf = 2 * 2 / 2 * 2 = 1

回答:

这似乎与基尼指数有关,基尼指数是一种熵的度量方法,它也使用平方计数的总和。

正如在Cross Validated: 理解KMeans算法的质量中所说的那样。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注