我正在阅读这篇论文,在3.2.1小节的第一段最后三行,
为了将命名实体候选者映射到标准属性名称,我们使用了k-means算法,通过计算基于术语频率-逆文档频率(TFIDF)的余弦相似度,对识别的命名实体进行聚类。
有谁能解释一下这是什么意思吗?如果可能的话,请提供一个关于实现场景的例子。
回答:
我不完全确定他们是什么意思;最好的解决方案是直接向论文的作者询问这一点。但似乎聚类是为了做一些与实体链接相关的事情。
实体链接是通过将文本中发现的命名实体与其唯一身份(例如维基百科文章或数据库条目)匹配来消除歧义的过程。例如,“Washington”可以链接到城市“Washington, D.C”,州“Washington”,或人物“George Washington”。另一方面,字符串“Stanford”、“Stanford University”、“Leland Stanford Junior University”、“LSJU”、“Stanford U.”、“Stanford uni”、“University of Stanford”、“Stanford.edu”、“Stanfurd”和其他几个确实指的是同一个机构。这种信息不是由纯NER模型提供的,因为它们只能告诉你,例如在I graduated from Stanford U. in 2010
中,Stanford U
是一所学校 – 但不是哪所特定的学校。
你可能想要使用NEL,因为NER模型只预测“Stanford U”是教育机构的名称,或者“TeslaMotors”是公司的名称。然后NEL模型预测“Stanford U”实际上是指“Stanford University”,而“TeslaMotors”实际上是指“Tesla, inc.”。所以你可以认为命名实体链接某种程度上“细化”了识别的实体。例如,如果你使用发现的实体执行一些下游任务(例如简历分类),并且训练样本中存在“Tesla, inc.”而没有“TeslaMotors”。在这种情况下,命名实体链接将提高下游模型的泛化能力,因为在NEL之后,这两个实体将被完全相同的方式对待。
然而,论文的作者似乎没有所有他们特定领域的实体(学校、学位、技能、职位等)的数据库,或者没有标记的数据集来训练实体链接模型。因此,他们没有使用经典的实体链接方法,而是将相似的实体出现合并成聚类,希望同一聚类中的字符串确实指的是同一个身份。
这种方法看似粗糙,但总比完全没有链接要好,并且它可以为手动标记/链接聚类提供一个很好的起点,从而创建一个用于训练监督模型进行实体链接的数据集。