PCA先进行还是标准化先进行？

在进行回归或分类时，预处理数据的正确（或更好的）方法是什么？

以上哪一种方法更正确，或者是预处理数据的“标准化”方式？这里的“标准化”指的是标准化、线性缩放或其他技术。

回答：

在进行PCA之前，你应该先标准化数据。例如，考虑以下情况。我创建了一个数据集X，它有一个已知的相关系数矩阵C：

>> C = [1 0.5; 0.5 1];>> A = chol(rho);>> X = randn(100,2) * A;

如果我现在执行PCA，我正确地发现主成分（权重向量的行）与坐标轴成角度：

>> wts=pca(X)wts =    0.6659    0.7461   -0.7461    0.6659

如果我现在将数据集的第一个特征缩放100倍，直觉上我们认为主成分不应该改变：

>> Y = X;>> Y(:,1) = 100 * Y(:,1);

然而，我们现在发现主成分与坐标轴对齐：

>> wts=pca(Y)wts =    1.0000    0.0056   -0.0056    1.0000

为了解决这个问题，有两个选项。首先，我可以重新缩放数据：

>> Ynorm = bsxfun(@rdivide,Y,std(Y))

（奇怪的bsxfun符号用于在Matlab中进行向量-矩阵运算 – 我所做的只是减去每个特征的均值并除以其标准差）。

我们现在从PCA中得到了合理的结果：

>> wts = pca(Ynorm)wts =   -0.7125   -0.7016    0.7016   -0.7125

它们与原始数据的PCA略有不同，因为我们现在保证了我们的特征具有单位标准差，这在最初不是这样的。

另一个选项是使用数据的相关系数矩阵而不是外积来执行PCA：

>> wts = pca(Y,'corr')wts =    0.7071    0.7071   -0.7071    0.7071

事实上，这完全等同于通过减去均值然后除以标准差来标准化数据。只是这样做更方便。在我看来，除非你有充分的理由不这样做（例如，如果你想要捕捉到每个特征变化的差异），否则你应该始终这样做。

学技术