如何在命名实体识别后使用k-means算法进行属性聚类？

我正在阅读这篇论文，在3.2.1小节的第一段最后三行，

为了将命名实体候选者映射到标准属性名称，我们使用了k-means算法，通过计算基于术语频率-逆文档频率（TFIDF）的余弦相似度，对识别的命名实体进行聚类。

有谁能解释一下这是什么意思吗？如果可能的话，请提供一个关于实现场景的例子。

回答：

我不完全确定他们是什么意思；最好的解决方案是直接向论文的作者询问这一点。但似乎聚类是为了做一些与实体链接相关的事情。

实体链接是通过将文本中发现的命名实体与其唯一身份（例如维基百科文章或数据库条目）匹配来消除歧义的过程。例如，“Washington”可以链接到城市“Washington, D.C”，州“Washington”，或人物“George Washington”。另一方面，字符串“Stanford”、“Stanford University”、“Leland Stanford Junior University”、“LSJU”、“Stanford U.”、“Stanford uni”、“University of Stanford”、“Stanford.edu”、“Stanfurd”和其他几个确实指的是同一个机构。这种信息不是由纯NER模型提供的，因为它们只能告诉你，例如在I graduated from Stanford U. in 2010中，Stanford U是一所学校 – 但不是哪所特定的学校。

你可能想要使用NEL，因为NER模型只预测“Stanford U”是教育机构的名称，或者“TeslaMotors”是公司的名称。然后NEL模型预测“Stanford U”实际上是指“Stanford University”，而“TeslaMotors”实际上是指“Tesla, inc.”。所以你可以认为命名实体链接某种程度上“细化”了识别的实体。例如，如果你使用发现的实体执行一些下游任务（例如简历分类），并且训练样本中存在“Tesla, inc.”而没有“TeslaMotors”。在这种情况下，命名实体链接将提高下游模型的泛化能力，因为在NEL之后，这两个实体将被完全相同的方式对待。

然而，论文的作者似乎没有所有他们特定领域的实体（学校、学位、技能、职位等）的数据库，或者没有标记的数据集来训练实体链接模型。因此，他们没有使用经典的实体链接方法，而是将相似的实体出现合并成聚类，希望同一聚类中的字符串确实指的是同一个身份。

这种方法看似粗糙，但总比完全没有链接要好，并且它可以为手动标记/链接聚类提供一个很好的起点，从而创建一个用于训练监督模型进行实体链接的数据集。

学技术

如何在命名实体识别后使用k-means算法进行属性聚类？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复