PCA:为什么使用princomp()和prcomp()得到的结果差异如此大?

在下面的代码中,pc3$loadingspc4$rotation有什么区别?

代码:

pc3<-princomp(datadf, cor=TRUE)pc3$loadingspc4<-prcomp(datadf,cor=TRUE)pc4$rotation

数据:

datadf<-dput(datadf)structure(list(gVar4 = c(11, 14, 17, 5, 5, 5.5, 8, 5.5, 6.5, 8.5, 4, 5, 9, 10, 11, 7, 6, 7, 7, 5, 6, 9, 9, 6.5, 9, 3.5, 2, 15, 2.5, 17, 5, 5.5, 7, 6, 3.5, 6, 9.5, 5, 7, 4, 5, 4, 9.5, 3.5, 5, 4, 4, 9, 4.5), gVar1 = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 1L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 1L, 0L, 0L, 0L, 0L, 0L), gVar2 = c(0L, 1L, 0L, 1L, 0L, 0L, 0L, 0L, 0L, 1L, 1L, 1L, 1L, 0L, 1L, 1L, 0L, 2L, 3L, 0L, 0L, 1L, 0L, 0L, 1L, 1L, 0L, 1L, 0L, 0L, 0L, 1L, 0L, 0L, 1L, 0L, 1L, 1L, 0L, 0L, 0L, 0L, 1L, 1L, 1L, 0L, 1L, 0L, 0L), gVar3 = c(2L, 4L, 1L, 3L, 3L, 2L, 1L, 2L, 3L, 6L, 5L, 2L, 7L, 4L, 2L, 7L, 5L, 6L, 1L, 3L, 3L, 6L, 3L, 2L, 3L, 1L, 1L, 1L, 1L, 1L, 2L, 5L, 4L, 5L, 6L, 5L, 5L, 6L, 7L, 6L, 2L, 5L, 8L, 5L, 5L, 0L, 2L, 4L, 2L)), .Names = c("gVar4", "gVar1", "gVar2", "gVar3"), row.names = c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 16L, 17L, 18L, 19L, 20L, 21L, 22L, 23L, 24L, 25L, 26L, 27L, 28L, 29L, 30L, 31L, 32L, 33L, 34L, 35L, 36L, 37L, 38L, 39L, 40L, 41L, 42L, 43L, 44L, 45L, 46L, 47L, 48L, 49L, 50L), class = "data.frame", na.action = structure(8L, .Names = "8", class = "omit"))

回答:

当你执行pc4 <- prcomp(datadf, cor = TRUE)时,你没有收到警告吗?你应该被告知prcomp没有cor参数,并且这个参数会被忽略。我先告诉你正确的做法,并解释原因。

正确做法

你应该这样做:

pc3 <- princomp(datadf, cor = TRUE)pc4 <- prcomp(datadf, scale = TRUE)

这样,pc3$sdevpc4$sdev中的特征值/奇异值的根,以及pc3$loadingspc4$rotation中的特征向量(载荷/旋转)都会相同。

原因

当你执行pc3 <- princomp(datadf, cor = TRUE)时,你是在对相关系数矩阵进行特征值分解:

foo <- eigen(cor(datadf))  ## cor()foo$values <- sqrt(foo$values)foo#$values#[1] 1.1384921 1.0614224 0.9249764 0.8494921#$vectors#           [,1]       [,2]        [,3]       [,4]#[1,]  0.3155822 -0.6186905  0.70263064  0.1547260#[2,] -0.4725640  0.4633071  0.68652912 -0.3011769#[3,] -0.4682583 -0.6040654 -0.18558974 -0.6175724#[4,] -0.6766279 -0.1940969 -0.02333235  0.7098991

这些就是你在pc3$sdevpc3$loadings中会得到的结果。

然而,当你执行pc4 <- prcomp(datadf, cor = TRUE)时,cor = TRUE会被忽略,R会执行:

pc4 <- prcomp(datadf)  ## 以默认值,scale = FALSE

因此,它会对协方差矩阵进行奇异值分解:

bar <- eigen(cov(datadf))  ## cov()bar$values <- sqrt(bar$values)bar#$values#[1] 3.440363 2.048703 0.628585 0.196056#$vectors              [,1]        [,2]        [,3]         [,4]#[1,]  0.997482373 -0.06923771  0.01349921  0.007268119#[2,] -0.008316998 -0.01265655  0.01132874  0.999821133#[3,]  0.007669026 -0.08271789 -0.99649018  0.010307681#[4,] -0.070006635 -0.99408435  0.08183363 -0.014093521

这些就是你在pc4$sdevpc4$rotation中会看到的结果。

但是,如果你执行pc4 <- prcomp(datadf, scale = TRUE),它将对相关系数矩阵进行操作,与pc3 <- princomp(datadf, cor = TRUE)相同。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注