在关于如何选择聚类数量的Stack Overflow回答中,其中一个图表包含以下内容:
这两个成分解释了100%的点变异性
。这里提到的成分是什么?它们是x和y成分吗?
回答:
成分指的是主成分,例如对原始变量进行主成分分析的结果。
clusplot(...)
依赖于clusplot.default(...)
,其文档说明如下:
… 创建一个双变量图来可视化数据的分区(聚类)。所有观测值在图中以点表示,使用主成分或多维缩放…
由于原始数据可能具有超过2个维度(例如,超过两个变量),而聚类图被限制在2D,因此需要对原始数据进行某种形式的降维处理。一种常见的方法是PCA,它创建一组新的变量作为原始变量集的线性组合。这些新变量被称为主成分,通常原始数据集中大部分的变异性集中在前几个主成分中。因此,clusplot(...)
绘制的是PC2与PC1的对比图。
如果原始数据集中只有两个维度,那么将只有2个主成分,这些主成分将解释数据中100%的变异性。我猜测这就是您示例中发生的情况。