关于不同k-means算法的质量

我了解到在k-means算法中，有Lloyd算法、Elkan算法，以及k-means的层次版本。

对于所有这些算法，我发现Elkan算法在速度上可以提供提升。但我想知道的是，这些k-means算法的质量如何。每次运行这些算法，结果都会有所不同，这是由于它们的启发式和概率性质。现在，我的疑问是，对于像k-means这样的聚类算法，如果我们想要获得更高质量的結果（例如更小的失真等），在所有这些k-means算法中，哪个算法能够提供更好的质量？是否有可能测量这种质量？

回答：

通常情况下，更好的解决方案是具有更低的J(x,c)值的方案，其中：

J(x,c) = 1/|x| * Sum(distance(x(i),c(centroid(i)))) for each i in [1,|x|]

其中：

x是样本列表
|x|是x的大小（元素数量）
[1,|x|]是从1到|x|的所有数字（包括边界值）
c是聚类中心（或均值）的列表（即，对于k个聚类，|c| = k）
distance(a,b)（有时表示为||a-b||）是点a到点b的距离（在欧几里得二维空间中，它是sqrt((a.x-b.x)^2 + (a.y-b.y)^2)）
centroid(i) – 与x(i)最接近的中心/均值

请注意，这种方法不需要转换为监督技术，并且可以完全自动化！

学技术

关于不同k-means算法的质量

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复