专注的命名实体识别(NER)?

我想在特定领域(例如棒球)中识别命名实体。我知道有像StanfordNER、LingPipe、AlchemyAPI这样的工具可用,并且我已经对它们进行了一些测试。但正如我之前提到的,我希望它们能够针对特定领域进行识别。这怎么可能实现呢?


回答:

一种方法可能是

  1. 使用通用(非领域特定)的工具来检测人名

  2. 使用主题分类器来过滤掉非领域内的文本

如果数据集的总大小足够,并且提取器和分类器的准确性足够好,你可以使用结果来获得与所讨论领域密切相关的人名列表(例如,通过将结果限制为在领域特定文本中提及的频率显著高于其他文本的人名)。

在棒球的情况下,这应该是一种相当好的方法来获取与棒球相关的人员列表。然而,这并不是获取仅限棒球球员列表的好方法。后者需要分析名字被提及的具体语境以及关于他们的描述;但或许这不是必需的。

编辑:我所说的主题分类器与其他人可能简单称为分类文档分类领域分类或类似的意思相同。现成的工具示例包括Python-NLTK中的分类器(示例见这里)和LingPipe中的分类器(示例见这里)。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注