我有两个类别的词袋列表。假设类别A中有n个项目,类别B中有m个项目。我想使用Python中的gensim包(用于LDA)进行主题建模,以便训练一个针对类别A与类别B的模型。同时,我对主题建模和Python都很陌生。有人知道我应该怎么做吗?我是说,我应该合并每个类别的所有词袋然后使用gensim,还是应该分别使用每个项目的词袋?谢谢!
回答:
如果我理解正确的话,你是想比较来自两个来源的文档。
使用Gensim进行此操作的一种方法是:
- 从所有文档(A和B)创建词袋语料库(~将文本转换为n x n的1和0矩阵)
- 在你的语料库上训练LDA模型(~发现主题)
- 将语料库转换到LDA空间(~确定哪些主题与文档相关)
现在你可以查看每个文档的主题分布,并使用Gensim的相似性方法来确定两个文档的相似程度。
有关详细信息,请查看Gensim的教程。你唯一需要做的修改是将来自A和B的文档合并成一个更大的文档,并在某处保存索引,以便以后可以轻松比较它们。
然而,根据你的数据和目标,其他形式的LDA(如相关主题模型)可能更适合。