最佳聚类数量在R中

在关于如何选择聚类数量的Stack Overflow回答中,其中一个图表包含以下内容:

这两个成分解释了100%的点变异性

。这里提到的成分是什么?它们是x和y成分吗?

enter image description here


回答:

成分指的是主成分,例如对原始变量进行主成分分析的结果。

clusplot(...)依赖于clusplot.default(...),其文档说明如下:

… 创建一个双变量图来可视化数据的分区(聚类)。所有观测值在图中以点表示,使用主成分或多维缩放…

由于原始数据可能具有超过2个维度(例如,超过两个变量),而聚类图被限制在2D,因此需要对原始数据进行某种形式的降维处理。一种常见的方法是PCA,它创建一组新的变量作为原始变量集的线性组合。这些新变量被称为主成分,通常原始数据集中大部分的变异性集中在前几个主成分中。因此,clusplot(...)绘制的是PC2与PC1的对比图。

如果原始数据集中只有两个维度,那么将只有2个主成分,这些主成分将解释数据中100%的变异性。我猜测这就是您示例中发生的情况。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注