使用Python拟合固定协方差的高斯混合模型

我有一些2D数据（GPS数据），其中包含了一些聚类（停留位置），我知道这些聚类类似于具有特定标准偏差的高斯分布（与GPS样本的固有噪声成比例）。下图展示了一个我预期有两个此类聚类的样本。图像宽25米，高13米。

sklearn模块有一个函数sklearn.mixture.GaussianMixture，它允许你将高斯混合模型拟合到数据上。该函数有一个参数covariance_type，它允许你对高斯分布的形状做出不同的假设。例如，你可以使用'tied'参数假设它们是均匀的。

然而，似乎无法直接假设协方差矩阵保持不变。从sklearn的源代码来看，进行这样的修改似乎很简单，但提交一个允许这种操作的更新请求似乎有点过分（而且我也不想在sklearn中意外地引入错误）。有没有更好的方法来拟合数据，其中每个高斯分布的协方差矩阵是固定的？

我希望假设每个组件的标准偏差保持在约3米，因为这是我的GPS样本的噪声水平。

回答：

编写自己的EM算法实现是相当简单的。这也将帮助你更好地理解这个过程。我假设协方差是已知的，且各组件的先验概率是相等的，只拟合均值。

类将如下所示（在Python 3中）：


在像你的数据上，模型会很快收敛：
np.random.seed(1)X = np.random.normal(size=(100,2), scale=3)X[50:] += (10, 5)model = FixedCovMixture(2, cov=[[3,0],[0,3]], random_state=1)model.fit(X)print(model.n_iter_, 'iterations')print(model.mean_)plt.scatter(X[:,0], X[:,1], s=10, c=model.predict(X))plt.scatter(model.mean_[:,0], model.mean_[:,1], s=100, c='k')plt.axis('equal')plt.show();
输出结果为
11 iterations[[9.92301067 4.62282807] [0.09413883 0.03527411]]
你可以看到估计的中心（(9.9, 4.6)和(0.09, 0.03)）与真实中心（(10, 5)和(0, 0)）非常接近。




相关文章：

Scikit SVM: 创建训练数据集
scikit-learn “处理文本数据教程”忽略了我的目标类别
如何在保持类别比例的情况下将数据集拆分为训练集和验证集？
如何在scikit-learn中获得有意义的kmeans结果
使用chi平方核进行多标签预测
如何在sklearn中使用自定义估计器与GridSearchCV？
如何在Scikit-Learn中绘制10折交叉验证的PR曲线
使用不在训练集中的一些词进行分类预测（朴素贝叶斯）
计算查询字符串在训练文档集上的TF-IDF
如何在内存中加载scikit-learn机器学习模块？

学技术

使用Python拟合固定协方差的高斯混合模型

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复