简单k均值聚类中的聚类中心

我目前正在尝试解释从Diabetes.arff数据集上运行SimpleKMeans聚类所获得的一组结果。

https://i.sstatic.net/T4eho.jpg – 聚类实例的链接(图1)

到目前为止,我能理解的是,聚类实例(图1)显示有500个变量被分类为测试阴性,268个变量被分类为测试阳性。

https://i.sstatic.net/X9szt.jpg – 真实值的链接(图2)

当这些值与真实值进行比较时,几乎没有差异,因为正确的聚类应该显示500个被分类为测试阴性,268个被分类为测试阳性。这技术上意味着SimpleKMeans聚类方法适合这个数据集,因为它正确地分类了实例。

但我不知道如何解释聚类中心表中的信息,在“完整数据”、聚类#0和聚类#1标题下。这些信息告诉我们关于数据集(图1)什么?


回答:

在进行聚类之前,你应该删除类属性。它具有太强的预测能力,因此,聚类算法在内部强烈偏向于类属性。

你可以在“预处理”面板中通过点击“删除”按钮,或者在“聚类”面板中通过点击“忽略属性”,然后选择“类”属性来进行属性删除。

然后再次进行聚类。我建议从k=2开始,这是“类”属性的唯一值数量。(然后检查聚类分配是否对应于原始属性,或者做其他事情。)

顺便说一句,看起来你不是在处理“玻璃”数据集,而是在处理“糖尿病”数据集。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注