Home IT技术应该在k-means输入中包含唯一值还是所有值（包括重复值）？

应该在k-means输入中包含唯一值还是所有值（包括重复值）？

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我正在使用kmeans算法对一维数据进行聚类。尽管对于一维数据有像Jenks分段和Fisher的自然分段这样的方法，但我还是选择了kmeans。

我的问题是，如果我只对数据点列表中的唯一值进行聚类，或者使用所有数据点（包括重复的），这会有什么不同？

建议怎么做？

回答：

这确实会产生差异：[-1 -1 1]的平均值是-0.33，而[-1 1]的平均值是0。你应该怎么做取决于数据本身以及你对聚类结果的期望。不过，默认情况下，我建议保留所有点：移除点会改变k-means设计用于选择作为聚类中心的局部密度，而且，为什么你要移除重复值，而不移除近似重复值呢？

algorithm cluster-analysis k-means machine-learning

发表回复取消回复