我的问题主要源自这个帖子:https://stats.stackexchange.com/questions/53/pca-on-correlation-or-covariance
在这篇文章中,作者绘制了每个变量的向量方向和长度。根据我的理解,执行PCA后,我们得到的是特征向量和特征值。对于一个维度为M x N的数据集,每个特征值应该是一个1 x N的向量。因此,我的疑问是,可能是向量的长度就是特征值,但如何数学上找到每个变量的向量方向?以及向量的长度的物理意义是什么?
另外,如果可能的话,我能否使用Python中的scikit的PCA函数来做类似的工作?
谢谢!
回答:
这种图表被称为双向图,它对于理解PCA结果非常有用。向量的长度就是每个特征/变量在每个主成分上的值,也就是所谓的PCA加载值。
示例:
这些加载值可以通过print(pca.components_)
访问。使用鸢尾花数据集,加载值是:
[[ 0.52106591, -0.26934744, 0.5804131 , 0.56485654], [ 0.37741762, 0.92329566, 0.02449161, 0.06694199], [-0.71956635, 0.24438178, 0.14212637, 0.63427274], [-0.26128628, 0.12350962, 0.80144925, -0.52359713]])
在这里,每一行为一个主成分,每一列对应一个变量/特征。因此,变量/特征1在第一主成分上的值为0.52106591,在第二主成分上的值为0.37741762。这些值就是用来绘制双向图中你看到的向量的。看下面Var1
的坐标。它们正是上面那些值!!
最后,要在Python中创建这个图表,你可以使用sklearn
来实现:
另见此帖子:https://stackoverflow.com/a/50845697/5025009
以及