使用nltk对文本文档进行分类

我目前正在进行一个项目,我从电子邮件中提取邮件正文,使用email包进行处理,接下来我想根据体育、政治、科技等标签对它们进行分类…

我已经成功地从电子邮件中提取了邮件正文,现在我想开始进行分类。我已经完成了使用movie_reviews语料库进行情感分析分类的经典示例,将文档分为正面和负面评论。

我想知道我如何将这种方法应用到我的项目中?我可以创建多个类别,比如体育、科技、政治、娱乐等吗?我在这里遇到了障碍,希望能得到一些正确的指导。

如果这个问题不适合在SO上提问,我会很乐意删除它。

编辑:大家好,我看到这个帖子有点受欢迎,我最终成功完成了这个项目,这是项目GitHub仓库中代码的链接:https://github.com/codyreandeau/Email-Categorizer/blob/master/Email_Categorizer.py


回答:

要创建一个分类器,你需要一个包含你所需类别的训练数据集。在你的情况下,你可能需要:

  1. 创建自己的数据集
  2. 使用现有的数据集

布朗语料库是一个具有许多你提到的类别的经典文本。这可以作为一个起点,帮助你使用像gensim这样的包来查找语义相似的文本,从而对你的电子邮件进行分类。

一旦你对电子邮件进行了分类,你就可以训练一个系统来预测每个未见过的电子邮件的标签。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注