为什么在主成分分析（PCA）后分类器的准确率下降，尽管已经覆盖了99%的总方差？

我有一个500×1000的特征向量，主成分分析显示第一个成分覆盖了超过99%的总方差。因此，我用一个维度的点替换了1000维度的点，得到500×1的特征向量（使用Matlab的pca函数）。但是，我的分类器准确率最初在1000个特征时约为80%，现在在只有1个特征时下降到30%，尽管这个特征已经解释了超过99%的方差。这可能是什么原因，或者我的方法是否有误？

（这个问题部分源自我之前的问题主成分分析中第一个成分覆盖99%方差的重要性）

编辑：我使用了weka的主成分方法来进行降维，并使用支持向量机（SVM）分类器。

回答：

主成分并不一定与分类准确率有任何关联。在某些情况下，可能存在一个由两个变量组成的情景，其中99%的方差对应于第一个主成分，但这个主成分与数据中的基础类别没有任何关系。而第二个主成分（仅贡献1%的方差）才是能够区分类别的关键。如果你只保留第一个主成分，那么你就失去了真正能够对数据进行分类的特征。

在实际操作中，较小的（低方差的）主成分通常与噪声相关，因此去除它们可能有益，但这并无保证。

考虑这样一个案例，你有两个变量：一个人的质量（以克为单位）和体温（以摄氏度为单位）。你想预测哪些人得了流感，哪些人没有。在这种情况下，体重具有更大的方差，但可能与流感无关，而体温虽然方差低，却与流感有很强的相关性。在主成分变换后，第一个主成分将与质量强烈相关（因为它的方差更大），所以如果你丢弃了第二个主成分，几乎会失去所有的分类准确率。

重要的是要记住，主成分分析是一种对数据的无监督变换。它在计算变换时不考虑训练数据的标签（与Fisher的线性判别分析相反）。

学技术

为什么在主成分分析（PCA）后分类器的准确率下降，尽管已经覆盖了99%的总方差？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复