专注的命名实体识别(NER)?

我想在特定领域(例如棒球)中识别命名实体。我知道有像StanfordNER、LingPipe、AlchemyAPI这样的工具可用,并且我已经对它们进行了一些测试。但正如我之前提到的,我希望它们能够针对特定领域进行识别。这怎么可能实现呢?


回答:

一种方法可能是

  1. 使用通用(非领域特定)的工具来检测人名

  2. 使用主题分类器来过滤掉非领域内的文本

如果数据集的总大小足够,并且提取器和分类器的准确性足够好,你可以使用结果来获得与所讨论领域密切相关的人名列表(例如,通过将结果限制为在领域特定文本中提及的频率显著高于其他文本的人名)。

在棒球的情况下,这应该是一种相当好的方法来获取与棒球相关的人员列表。然而,这并不是获取仅限棒球球员列表的好方法。后者需要分析名字被提及的具体语境以及关于他们的描述;但或许这不是必需的。

编辑:我所说的主题分类器与其他人可能简单称为分类文档分类领域分类或类似的意思相同。现成的工具示例包括Python-NLTK中的分类器(示例见这里)和LingPipe中的分类器(示例见这里)。

Related Posts

交叉熵和对数损失误差之间的区别是什么?

交叉熵和对数损失误差之间的区别是什么?它们的公式看起来…

Keras损失持续低但准确率开始高后下降

首先,我的假设可能有误: 损失是每个训练样本与正确答案…

在TensorFlow中实现简单的Softmax分类器

我正在尝试用TensorFlow编写一个简单的Soft…

如何对没有等级/顺序的分类变量进行编码?

我主要处理的分类问题涉及数值特征,如大小、身高、体重、…

错误:需要参数 -s/–source

我从Github上复制了这段代码,但对我来说它不起作用…

sklearn: 使用交叉验证的递归特征消除有什么好处?

当我查看使用交叉验证的递归特征消除时,我在想sklea…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注