如何使用Mallet计算给定查询的topic概率

我想在专家查找项目中使用Mallet。我对Mallet几乎是个新手,但我知道它可以从一组文档中训练出主题。假设我已经用Mallet训练了50个主题。我想计算这个概率:p(topic|q)或者p(q|topic)

q是查询。它是一个词(如算法、安卓等),我希望找到该领域的专家。

当我阅读这篇文章:如何使用Mallet获取词-主题概率时,有个用户提到我们可以使用--word-topic-counts-file选项来计算概率。假设我已经通过Mallet生成了这个文件。它的结构如下:

0 android 2:211 is 3:3...

我了解这个结构的语义,但我不知道如何计算给定查询的topic概率(即p(topic|q)或者p(q|topic)

附注:我使用“或者”这个词是因为我不确定Mallet计算的是哪个

任何帮助都将不胜感激


回答:

GlieBrt对链接问题的回答中的这一行举例

1 needham 19:2 17:1

这里可以计算p(topic|q)如下:

p(19|needham) = 2/3 = 0.67

p(17|needham) = 1/3 = 0.33

用你自己的例子来说就更简单了:

0 android 2:21

p(2|android) = 1.0

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注