有人能详细告诉我PCA(主成分分析)、TruncatedSVD(截断奇异值分解)和ICA(独立成分分析)之间的区别吗?
回答:
详细解释可能需要很长的PDF文档 :-).
但基本思路很简单:
- 主成分分析(PCA) – 分析数据的本征坐标。也就是说,数据在这些坐标上的能量(方差)最大。对于维度为d的n个样本,将有$d$个正交方向。数据投影到这些方向上时没有相关性。如果我们将数据视为随机变量,这意味着我们找到了一个坐标系,其中任何一对投影数据的交叉相关性(一阶矩)消失了。
这是一种通过保留大部分能量来在较低维度上有效逼近数据的方法。 - 截断SVD – 可以证明,计算这些坐标系的方法之一是使用SVD。因此,这是应用PCA背后思想的一种方法。
- 独立成分分析(ICA) – 这是比PCA更进一步的方法。虽然PCA只处理数据的一阶矩(相关性),但ICA则关注更高阶的矩,并试图找到数据的投影,使这些更高阶的矩消失(可以理解为从无相关性到概率独立性)。