我们知道实体可能有多种表现形式,例如,“Barack Obama”可能被表示为“Obama”、“President”和“Barack Hussein Obama”。
是否有算法可以判断这三个名称是否指的是同一个实体“Barack Obama”?
谢谢!
编辑1:
我将提供更多关于我的情况的细节。我想要做的是在Twitter上连接不同的实体名称。
如果我发送了一条包含“Barack Obama”的推文,过了一段时间后我又发送了另一条包含“President”但不包含“Barack Obama”的推文,那么我的系统应该能够将这两条推文连接起来,因为当我在两条推文中提到“Barack Obama”和“President”时,显然指的是同一个实体。
回答:
潜在语义分析是你可能想尝试的一种方法。
或者,主题模型的一个非参数扩展,如潜在Dirichlet分配,也可能会有效。