最佳聚类数量在R中

在关于如何选择聚类数量的Stack Overflow回答中,其中一个图表包含以下内容:

这两个成分解释了100%的点变异性

。这里提到的成分是什么?它们是x和y成分吗?

enter image description here


回答:

成分指的是主成分,例如对原始变量进行主成分分析的结果。

clusplot(...)依赖于clusplot.default(...),其文档说明如下:

… 创建一个双变量图来可视化数据的分区(聚类)。所有观测值在图中以点表示,使用主成分或多维缩放…

由于原始数据可能具有超过2个维度(例如,超过两个变量),而聚类图被限制在2D,因此需要对原始数据进行某种形式的降维处理。一种常见的方法是PCA,它创建一组新的变量作为原始变量集的线性组合。这些新变量被称为主成分,通常原始数据集中大部分的变异性集中在前几个主成分中。因此,clusplot(...)绘制的是PC2与PC1的对比图。

如果原始数据集中只有两个维度,那么将只有2个主成分,这些主成分将解释数据中100%的变异性。我猜测这就是您示例中发生的情况。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注