如何在命名实体识别后使用k-means算法进行属性聚类?

我正在阅读这篇论文,在3.2.1小节的第一段最后三行,

为了将命名实体候选者映射到标准属性名称,我们使用了k-means算法,通过计算基于术语频率-逆文档频率(TFIDF)的余弦相似度,对识别的命名实体进行聚类。

有谁能解释一下这是什么意思吗?如果可能的话,请提供一个关于实现场景的例子。


回答:

我不完全确定他们是什么意思;最好的解决方案是直接向论文的作者询问这一点。但似乎聚类是为了做一些与实体链接相关的事情。

实体链接是通过将文本中发现的命名实体与其唯一身份(例如维基百科文章或数据库条目)匹配来消除歧义的过程。例如,“Washington”可以链接到城市“Washington, D.C”,州“Washington”,或人物“George Washington”。另一方面,字符串“Stanford”、“Stanford University”、“Leland Stanford Junior University”、“LSJU”、“Stanford U.”、“Stanford uni”、“University of Stanford”、“Stanford.edu”、“Stanfurd”和其他几个确实指的是同一个机构。这种信息不是由纯NER模型提供的,因为它们只能告诉你,例如在I graduated from Stanford U. in 2010中,Stanford U是一所学校 – 但不是哪所特定的学校。

你可能想要使用NEL,因为NER模型只预测“Stanford U”是教育机构的名称,或者“TeslaMotors”是公司的名称。然后NEL模型预测“Stanford U”实际上是指“Stanford University”,而“TeslaMotors”实际上是指“Tesla, inc.”。所以你可以认为命名实体链接某种程度上“细化”了识别的实体。例如,如果你使用发现的实体执行一些下游任务(例如简历分类),并且训练样本中存在“Tesla, inc.”而没有“TeslaMotors”。在这种情况下,命名实体链接将提高下游模型的泛化能力,因为在NEL之后,这两个实体将被完全相同的方式对待。

然而,论文的作者似乎没有所有他们特定领域的实体(学校、学位、技能、职位等)的数据库,或者没有标记的数据集来训练实体链接模型。因此,他们没有使用经典的实体链接方法,而是将相似的实体出现合并成聚类,希望同一聚类中的字符串确实指的是同一个身份。

这种方法看似粗糙,但总比完全没有链接要好,并且它可以为手动标记/链接聚类提供一个很好的起点,从而创建一个用于训练监督模型进行实体链接的数据集。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注