我有一个包含少量分类和数值特征的数据框架。我将文本列的词袋模型(CountVectorizer)与之拼接后,特征数量超过了56,000个。因此,我考虑使用PCA来减少特征数量。
我认为选择正确的主成分数量在这里至关重要,但我对这里应该考虑多少个n_components
感到困惑?
回答:
你可以绘制一个图表,展示前k个成分及其方差。根据这些成分中包含的方差选择k。理想情况下,方差应达到95%或以上。
我有一个包含少量分类和数值特征的数据框架。我将文本列的词袋模型(CountVectorizer)与之拼接后,特征数量超过了56,000个。因此,我考虑使用PCA来减少特征数量。
我认为选择正确的主成分数量在这里至关重要,但我对这里应该考虑多少个n_components
感到困惑?
回答:
你可以绘制一个图表,展示前k个成分及其方差。根据这些成分中包含的方差选择k。理想情况下,方差应达到95%或以上。