简单k均值聚类中的聚类中心

我目前正在尝试解释从Diabetes.arff数据集上运行SimpleKMeans聚类所获得的一组结果。

https://i.sstatic.net/T4eho.jpg – 聚类实例的链接（图1）

到目前为止，我能理解的是，聚类实例（图1）显示有500个变量被分类为测试阴性，268个变量被分类为测试阳性。

https://i.sstatic.net/X9szt.jpg – 真实值的链接（图2）

当这些值与真实值进行比较时，几乎没有差异，因为正确的聚类应该显示500个被分类为测试阴性，268个被分类为测试阳性。这技术上意味着SimpleKMeans聚类方法适合这个数据集，因为它正确地分类了实例。

但我不知道如何解释聚类中心表中的信息，在“完整数据”、聚类#0和聚类#1标题下。这些信息告诉我们关于数据集（图1）什么？

回答：

在进行聚类之前，你应该删除类属性。它具有太强的预测能力，因此，聚类算法在内部强烈偏向于类属性。

你可以在“预处理”面板中通过点击“删除”按钮，或者在“聚类”面板中通过点击“忽略属性”，然后选择“类”属性来进行属性删除。

然后再次进行聚类。我建议从k=2开始，这是“类”属性的唯一值数量。（然后检查聚类分配是否对应于原始属性，或者做其他事情。）

顺便说一句，看起来你不是在处理“玻璃”数据集，而是在处理“糖尿病”数据集。

学技术