将PCA应用于单个样本

我目前正在进行一个使用机器学习的图像识别项目。

现在，我想预测一张通过网络摄像头捕获的单个图像。问题是，我应该对该图像应用PCA吗？

如果我不应用PCA，我会得到ValueError: X.shape[1] = 90000 should be equal to 50, the number of features at training time
如果我应用PCA，我会得到ValueError: n_components=50 must be between 0 and min(n_samples, n_features)=1 with svd_solver='full'

我使用Python 3, scikit-learn 0.20.3，这是我应用PCA的方式：

from sklearn.decomposition import PCApca = PCA(50)pca.fit_transform(features)

回答：

你也需要在测试集上应用PCA。

你需要考虑PCA的作用：

PCA构建了一个新的特征集（包含的特征比原始特征空间少），然后你在这个新的特征集上进行训练。你需要为测试集构建这个新的特征集，使你的模型有效！

重要的是要注意，你的“减少”特征集中的每个特征都是原始特征的线性组合，对于给定的新特征数量（n_components），它们是最大化原始空间在新空间中保留的方差的特征集。

在实践中，要对测试集进行相关的转换，你需要做的是：

# X_test - 你的未转换的测试集X_test_reduced = pca.transform(X_test)

其中pca是你训练集上训练的PCA()实例。基本上，你正在构建一个转换到低维空间的转换，你希望这种转换对于训练集和测试集是相同的！如果你在训练集和测试集上独立训练pca，你几乎肯定会将数据嵌入到不同的低维表示中，并拥有不同的特征集。

学技术