我知道主成分分析是对矩阵进行奇异值分解,然后生成一个特征值矩阵。为了选择主成分,我们需要只选择前几个特征值。现在,问题是我们如何决定从特征值矩阵中应该选择多少个特征值?
回答:
要决定保留多少个特征值/特征向量,你应该考虑你进行主成分分析的初衷。你是为了减少存储需求,还是为了降低分类算法的维度,或者是出于其他原因?如果你没有严格的限制,我建议你绘制特征值的累积和(假设它们是按降序排列的)。如果你在绘图前将每个值除以特征值的总和,那么你的图表将显示保留的总方差比例与特征值数量的关系。该图表将很好地指示你何时达到收益递减点(即,保留额外的特征值所获得的方差很少)。