我目前正在尝试解释从Diabetes.arff数据集上运行SimpleKMeans聚类所获得的一组结果。
https://i.sstatic.net/T4eho.jpg – 聚类实例的链接(图1)
到目前为止,我能理解的是,聚类实例(图1)显示有500个变量被分类为测试阴性,268个变量被分类为测试阳性。
https://i.sstatic.net/X9szt.jpg – 真实值的链接(图2)
当这些值与真实值进行比较时,几乎没有差异,因为正确的聚类应该显示500个被分类为测试阴性,268个被分类为测试阳性。这技术上意味着SimpleKMeans聚类方法适合这个数据集,因为它正确地分类了实例。
但我不知道如何解释聚类中心表中的信息,在“完整数据”、聚类#0和聚类#1标题下。这些信息告诉我们关于数据集(图1)什么?
回答:
在进行聚类之前,你应该删除类属性。它具有太强的预测能力,因此,聚类算法在内部强烈偏向于类属性。
你可以在“预处理”面板中通过点击“删除”按钮,或者在“聚类”面板中通过点击“忽略属性”,然后选择“类”属性来进行属性删除。
然后再次进行聚类。我建议从k=2开始,这是“类”属性的唯一值数量。(然后检查聚类分配是否对应于原始属性,或者做其他事情。)
顺便说一句,看起来你不是在处理“玻璃”数据集,而是在处理“糖尿病”数据集。