使用nltk对文本文档进行分类

我目前正在进行一个项目,我从电子邮件中提取邮件正文,使用email包进行处理,接下来我想根据体育、政治、科技等标签对它们进行分类…

我已经成功地从电子邮件中提取了邮件正文,现在我想开始进行分类。我已经完成了使用movie_reviews语料库进行情感分析分类的经典示例,将文档分为正面和负面评论。

我想知道我如何将这种方法应用到我的项目中?我可以创建多个类别,比如体育、科技、政治、娱乐等吗?我在这里遇到了障碍,希望能得到一些正确的指导。

如果这个问题不适合在SO上提问,我会很乐意删除它。

编辑:大家好,我看到这个帖子有点受欢迎,我最终成功完成了这个项目,这是项目GitHub仓库中代码的链接:https://github.com/codyreandeau/Email-Categorizer/blob/master/Email_Categorizer.py


回答:

要创建一个分类器,你需要一个包含你所需类别的训练数据集。在你的情况下,你可能需要:

  1. 创建自己的数据集
  2. 使用现有的数据集

布朗语料库是一个具有许多你提到的类别的经典文本。这可以作为一个起点,帮助你使用像gensim这样的包来查找语义相似的文本,从而对你的电子邮件进行分类。

一旦你对电子邮件进行了分类,你就可以训练一个系统来预测每个未见过的电子邮件的标签。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注