我想从大量的新闻文章中提取主题列表,计划使用gensim通过LDA方法为每篇文档提取主题分布。我想了解gensim实现LDA所需的处理后文章的格式,以及如何将原始文章转换为这种格式。我看到了一篇关于对维基百科数据进行LDA分析的链接,但发现其中的语料库已经处理过了,且其格式在任何地方都没有提到。
回答:
这包括一个离线学习步骤和一个在线特征创建步骤。
离线学习
假设你有一个大型语料库,比如维基百科,或者下载了一大堆新闻文章。
对于每篇文章/文档:
- 获取原始文本
- 进行词形还原。gensim有utils.lemmatize工具
- 创建词典
- 创建词袋表示
然后你训练TF-IDF模型,并将整个语料库转换到TF-IDF空间。最后,你在“TF-IDF语料库”上训练LDA模型。
在线
对于新来的新闻文章,你几乎做同样的事情:
- 进行词形还原
- 使用词典创建词袋表示
- 使用TF-IDF模型将其转换到TF-IDF空间
- 将其转换到LDA空间