我目前正在进行一个项目,我从电子邮件中提取邮件正文,使用email包进行处理,接下来我想根据体育、政治、科技等标签对它们进行分类…
我已经成功地从电子邮件中提取了邮件正文,现在我想开始进行分类。我已经完成了使用movie_reviews语料库进行情感分析分类的经典示例,将文档分为正面和负面评论。
我想知道我如何将这种方法应用到我的项目中?我可以创建多个类别,比如体育、科技、政治、娱乐等吗?我在这里遇到了障碍,希望能得到一些正确的指导。
如果这个问题不适合在SO上提问,我会很乐意删除它。
编辑:大家好,我看到这个帖子有点受欢迎,我最终成功完成了这个项目,这是项目GitHub仓库中代码的链接:https://github.com/codyreandeau/Email-Categorizer/blob/master/Email_Categorizer.py
回答:
要创建一个分类器,你需要一个包含你所需类别的训练数据集。在你的情况下,你可能需要:
- 创建自己的数据集
- 使用现有的数据集
布朗语料库是一个具有许多你提到的类别的经典文本。这可以作为一个起点,帮助你使用像gensim
这样的包来查找语义相似的文本,从而对你的电子邮件进行分类。
一旦你对电子邮件进行了分类,你就可以训练一个系统来预测每个未见过的电子邮件的标签。