Home IT技术使用nltk对文本文档进行分类

使用nltk对文本文档进行分类

IT技术 xiaolong · 2025年4月12日 · 0 Comment

我目前正在进行一个项目，我从电子邮件中提取邮件正文，使用email包进行处理，接下来我想根据体育、政治、科技等标签对它们进行分类…

我已经成功地从电子邮件中提取了邮件正文，现在我想开始进行分类。我已经完成了使用movie_reviews语料库进行情感分析分类的经典示例，将文档分为正面和负面评论。

我想知道我如何将这种方法应用到我的项目中？我可以创建多个类别，比如体育、科技、政治、娱乐等吗？我在这里遇到了障碍，希望能得到一些正确的指导。

如果这个问题不适合在SO上提问，我会很乐意删除它。

编辑：大家好，我看到这个帖子有点受欢迎，我最终成功完成了这个项目，这是项目GitHub仓库中代码的链接：https://github.com/codyreandeau/Email-Categorizer/blob/master/Email_Categorizer.py

回答：

要创建一个分类器，你需要一个包含你所需类别的训练数据集。在你的情况下，你可能需要：

创建自己的数据集
使用现有的数据集

布朗语料库是一个具有许多你提到的类别的经典文本。这可以作为一个起点，帮助你使用像gensim这样的包来查找语义相似的文本，从而对你的电子邮件进行分类。

一旦你对电子邮件进行了分类，你就可以训练一个系统来预测每个未见过的电子邮件的标签。

document-classification machine-learning nltk python text-classification

发表回复取消回复