如何使用gensim对新闻文章进行LDA分析?

我想从大量的新闻文章中提取主题列表,计划使用gensim通过LDA方法为每篇文档提取主题分布。我想了解gensim实现LDA所需的处理后文章的格式,以及如何将原始文章转换为这种格式。我看到了一篇关于对维基百科数据进行LDA分析的链接,但发现其中的语料库已经处理过了,且其格式在任何地方都没有提到。


回答:

这包括一个离线学习步骤和一个在线特征创建步骤。

离线学习

假设你有一个大型语料库,比如维基百科,或者下载了一大堆新闻文章。

对于每篇文章/文档:

  1. 获取原始文本
  2. 进行词形还原。gensim有utils.lemmatize工具
  3. 创建词典
  4. 创建词袋表示

然后你训练TF-IDF模型,并将整个语料库转换到TF-IDF空间。最后,你在“TF-IDF语料库”上训练LDA模型。

在线

对于新来的新闻文章,你几乎做同样的事情:

  1. 进行词形还原
  2. 使用词典创建词袋表示
  3. 使用TF-IDF模型将其转换到TF-IDF空间
  4. 将其转换到LDA空间

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注