专注的命名实体识别(NER)?

我想在特定领域(例如棒球)中识别命名实体。我知道有像StanfordNER、LingPipe、AlchemyAPI这样的工具可用,并且我已经对它们进行了一些测试。但正如我之前提到的,我希望它们能够针对特定领域进行识别。这怎么可能实现呢?


回答:

一种方法可能是

  1. 使用通用(非领域特定)的工具来检测人名

  2. 使用主题分类器来过滤掉非领域内的文本

如果数据集的总大小足够,并且提取器和分类器的准确性足够好,你可以使用结果来获得与所讨论领域密切相关的人名列表(例如,通过将结果限制为在领域特定文本中提及的频率显著高于其他文本的人名)。

在棒球的情况下,这应该是一种相当好的方法来获取与棒球相关的人员列表。然而,这并不是获取仅限棒球球员列表的好方法。后者需要分析名字被提及的具体语境以及关于他们的描述;但或许这不是必需的。

编辑:我所说的主题分类器与其他人可能简单称为分类文档分类领域分类或类似的意思相同。现成的工具示例包括Python-NLTK中的分类器(示例见这里)和LingPipe中的分类器(示例见这里)。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注