在EM算法中处理协方差矩阵的零行/列

我在实现高斯混合模型（GMMs）时，遇到了EM算法中的一些问题。

假设我有三维样本（stat1, stat2, stat3），用于训练GMMs。

其中一个GMM的训练集中，几乎每个样本的stat1值都是“0”。在训练过程中，我在协方差矩阵的第一行和第一列得到了非常小的数值（如“1.4456539880060609E-124”），这导致在EM算法的下一次迭代中，第一行和第一列变为0.0。

我得到的结果类似于这样：

0.0 0.0 0.00.0 5.0 6.00.0 2.0 1.0

我需要计算密度时使用逆协方差矩阵，但由于有一列为零，我无法进行这一操作。

我考虑过回退到旧的协方差矩阵（和均值），或者用一个非常小的数替换每个0。

或者还有其他简单的解决方案吗？

回答：

简单来说，你的数据位于实际输入空间的退化子空间中，而GMM在大多数通用形式下并不适合这种设置。问题在于你使用的经验协方差估计器对这种数据失效（正如你所说——你无法对其求逆）。通常你会怎么做？你会将协方差估计器改为受限/正则化的估计器，这些估计器包括：

基于常数的收缩，因此不是使用Sigma = Cov(X)，而是使用Sigma = Cov(X) + eps * I，其中eps是一个预定义的小常数，I是单位矩阵。这样，你永远不会在对角线上有零值，并且可以轻松证明，对于合理的epsilon，这将是可逆的
适合的收缩，如Oracle协方差估计器或Ledoit-Wolf协方差估计器，它们根据数据本身找到最佳的epsilon。
将你的高斯分布限制为例如球形家族，即N(m, sigma I)，其中sigma = avg_i( cov( X[:, i] ) 是每维度的平均协方差。这将你限制在球形高斯分布上，同时也解决了上述问题

还有更多可能的解决方案，但所有这些都基于同一件事——以确保可逆性的方式更改协方差估计器。

学技术