最佳聚类数量在R中

在关于如何选择聚类数量的Stack Overflow回答中，其中一个图表包含以下内容：

这两个成分解释了100%的点变异性

。这里提到的成分是什么？它们是x和y成分吗？

回答：

成分指的是主成分，例如对原始变量进行主成分分析的结果。

clusplot(...)依赖于clusplot.default(...)，其文档说明如下：

… 创建一个双变量图来可视化数据的分区（聚类）。所有观测值在图中以点表示，使用主成分或多维缩放…

由于原始数据可能具有超过2个维度（例如，超过两个变量），而聚类图被限制在2D，因此需要对原始数据进行某种形式的降维处理。一种常见的方法是PCA，它创建一组新的变量作为原始变量集的线性组合。这些新变量被称为主成分，通常原始数据集中大部分的变异性集中在前几个主成分中。因此，clusplot(...)绘制的是PC2与PC1的对比图。

如果原始数据集中只有两个维度，那么将只有2个主成分，这些主成分将解释数据中100%的变异性。我猜测这就是您示例中发生的情况。

学技术

最佳聚类数量在R中

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复