我想在特定领域(例如棒球)中识别命名实体。我知道有像StanfordNER、LingPipe、AlchemyAPI这样的工具可用,并且我已经对它们进行了一些测试。但正如我之前提到的,我希望它们能够针对特定领域进行识别。这怎么可能实现呢?
回答:
一种方法可能是
-
使用通用(非领域特定)的工具来检测人名
-
使用主题分类器来过滤掉非领域内的文本
如果数据集的总大小足够,并且提取器和分类器的准确性足够好,你可以使用结果来获得与所讨论领域密切相关的人名列表(例如,通过将结果限制为在领域特定文本中提及的频率显著高于其他文本的人名)。
在棒球的情况下,这应该是一种相当好的方法来获取与棒球相关的人员列表。然而,这并不是获取仅限棒球球员列表的好方法。后者需要分析名字被提及的具体语境以及关于他们的描述;但或许这不是必需的。
编辑:我所说的主题分类器与其他人可能简单称为分类、文档分类、领域分类或类似的意思相同。现成的工具示例包括Python-NLTK中的分类器(示例见这里)和LingPipe中的分类器(示例见这里)。