为什么主成分分析（PCA）的数量发生了变化？

我在一个数据集上进行主成分分析（PCA）。为了找到最佳的PCA数量，我使用了数据集特征的数量作为PCA的数量。然而，当我查看解释方差比时，我注意到PCA的数量发生了变化。最初，数据集的尺寸是200 * 300，所以在使用组件数量为300进行PCA后，我应该得到300个PCA及其对应的方差比，但实际上我得到了200个。

代码如下：

# 标准化数据
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
# 查找最佳的PCA数量
# pca.explained_variance_ratio_
pca = PCA()
pca.fit(X_train_scaled)
ratios = pca.explained_variance_ratio_

我已经弄清楚了原因，因此将在下面回答这个问题。

回答：

这实际上是由于sklearn中PCA的内置设置所致：

n_components : int, None或string 要保留的组件数量。

如果未设置n_components，则保留所有组件：n_components == min(n_samples, n_features)

因此，当我们的数据集的样本数少于其特征数时，PCA会自动选择样本数作为组件数量。

学技术

为什么主成分分析（PCA）的数量发生了变化？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复