如何识别电影或传记等文档类别

我目前正在进行一项任务,将一些文档分类到一些预定义的类别中。为此,我依赖多项式朴素贝叶斯分类器,对于大多数类别如棒球、体育或太空,它的效果很好。

然而,我如何找出电影或某人的传记等类别的文章呢?多项式朴素贝叶斯主要基于词袋模型的术语方法。这就是为什么它容易检测到棒球文章,因为它们会包含很多棒球术语。然而,电影或传记文章包含的术语非常少。电影文档描述电影,或对其进行评论,使用仅与该电影相关的特定词汇。因此,一篇关于《义海雄风》的文章可能包含很多法律术语,这可能导致它被错误地标记为“法律”。传记也是如此,它只是描述一个人的生活。

如何对这种类型的文档进行分类呢?


回答:

一个好的解决方案是使用命名实体识别半监督方法。例如,你可以在句子中标记演员的名字(使用实体提取的半监督方法,请查看这里),并统计特定实体的数量(例如,句子中重复提到的演员(我们的实体)的次数越多,句子与电影的相关性就越高)。然后将其添加到一个特征中,这样它可能对分类器来说是具有代表性和重要的,尝试从你的数据集中找出这样的特征,并用这些特征来训练你的分类器。

你可以使用像卡方检验ANOVA F值这样的测量方法来检查任何添加特征的有效性和影响。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注