如何在执行主成分分析(PCA)后绘制每个变量的主向量?

我的问题主要源自这个帖子:https://stats.stackexchange.com/questions/53/pca-on-correlation-or-covariance

在这篇文章中,作者绘制了每个变量的向量方向和长度。根据我的理解,执行PCA后,我们得到的是特征向量和特征值。对于一个维度为M x N的数据集,每个特征值应该是一个1 x N的向量。因此,我的疑问是,可能是向量的长度就是特征值,但如何数学上找到每个变量的向量方向?以及向量的长度的物理意义是什么?

另外,如果可能的话,我能否使用Python中的scikit的PCA函数来做类似的工作?

谢谢!


回答:

这种图表被称为双向图,它对于理解PCA结果非常有用。向量的长度就是每个特征/变量在每个主成分上的值,也就是所谓的PCA加载值。

示例:

这些加载值可以通过print(pca.components_)访问。使用鸢尾花数据集,加载值是:

  [[ 0.52106591, -0.26934744,  0.5804131 ,  0.56485654],   [ 0.37741762,  0.92329566,  0.02449161,  0.06694199],   [-0.71956635,  0.24438178,  0.14212637,  0.63427274],   [-0.26128628,  0.12350962,  0.80144925, -0.52359713]])

在这里,每一行为一个主成分,每一列对应一个变量/特征因此,变量/特征1在第一主成分上的值为0.52106591,在第二主成分上的值为0.37741762。这些值就是用来绘制双向图中你看到的向量的。看下面Var1的坐标。它们正是上面那些值!!


最后,要在Python中创建这个图表,你可以使用sklearn来实现:

enter image description here

另见此帖子:https://stackoverflow.com/a/50845697/5025009

以及

https://towardsdatascience.com/pca-clearly-explained-how-when-why-to-use-it-and-feature-importance-a-guide-in-python-7c274582c37e?source=friends_link&sk=65bf5440e444c24aff192fedf9f8b64f

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注