如何使用hmmlearn解决基本的隐马尔可夫模型问题

隐马尔可夫模型（HMM）有三个基本问题：

问题1（似然性）：已知一个HMM模型 λ = (A,B) 和一个观测序列 O，确定该观测序列的似然性 P(O|λ)。

问题2（解码）：已知一个观测序列 O 和一个HMM模型 λ = (A,B)，找出最佳的隐藏状态序列 Q。

问题3（学习）：已知一个观测序列 O 和HMM模型中的状态集，学习HMM的参数 A 和 B。

我对问题1和问题3感兴趣。一般来说，第一个问题可以通过前向算法解决，第三个问题可以通过Baum-Welch算法解决。我是否应该分别使用hmmlearn中的fit(X, lengths)和score(X, lengths)方法来解决第一个和第三个问题？（文档中并没有说明score方法使用的是前向算法。）

我对score方法还有几个问题。为什么score计算的是对数概率？如果我向score方法传递多个序列，为什么它返回的是对数概率的总和而不是每个序列的概率？

我的原始任务如下：我有100万个相同长度（10个词）的短句。我想用这些数据训练HMM模型，并对测试数据（同样是10个词的句子）预测每个句子在模型中的概率。根据这个概率，我将决定这是一个常见还是不常见的短语。

是否有更好的Python库来解决这些问题？

回答：

如果您在单个序列上拟合模型，您应该分别使用score(X)和fit(X)来解决第一个和第三个问题（因为长度参数的默认值为None，您不需要明确传递它）。处理多个序列时，您应该将它们的长度列表作为lengths参数传递，详见文档。

score方法计算对数概率是为了数值稳定性。乘很多数字可能会导致数值溢出或下溢——即一个数字可能变得太大而无法存储在内存中，或者太小而无法与零区分开来。解决方案是改为加它们的对数。

score方法返回所有序列对数概率的总和，因为它就是这样实现的。您想要的功能已经在一个月前提交了功能请求，所以可能很快就会出现。https://github.com/hmmlearn/hmmlearn/issues/272 或者您可以简单地单独计算每个序列的分数。

学技术

如何使用hmmlearn解决基本的隐马尔可夫模型问题

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复