简单k均值聚类中的聚类中心

我目前正在尝试解释从Diabetes.arff数据集上运行SimpleKMeans聚类所获得的一组结果。

https://i.sstatic.net/T4eho.jpg – 聚类实例的链接(图1)

到目前为止,我能理解的是,聚类实例(图1)显示有500个变量被分类为测试阴性,268个变量被分类为测试阳性。

https://i.sstatic.net/X9szt.jpg – 真实值的链接(图2)

当这些值与真实值进行比较时,几乎没有差异,因为正确的聚类应该显示500个被分类为测试阴性,268个被分类为测试阳性。这技术上意味着SimpleKMeans聚类方法适合这个数据集,因为它正确地分类了实例。

但我不知道如何解释聚类中心表中的信息,在“完整数据”、聚类#0和聚类#1标题下。这些信息告诉我们关于数据集(图1)什么?


回答:

在进行聚类之前,你应该删除类属性。它具有太强的预测能力,因此,聚类算法在内部强烈偏向于类属性。

你可以在“预处理”面板中通过点击“删除”按钮,或者在“聚类”面板中通过点击“忽略属性”,然后选择“类”属性来进行属性删除。

然后再次进行聚类。我建议从k=2开始,这是“类”属性的唯一值数量。(然后检查聚类分配是否对应于原始属性,或者做其他事情。)

顺便说一句,看起来你不是在处理“玻璃”数据集,而是在处理“糖尿病”数据集。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注