Home IT技术高效从文本中提取WikiData实体

高效从文本中提取WikiData实体

IT技术 xiaolong · 2025年4月8日 · 0 Comment

我有大量的文本（数百万），每个文本的长度在100到4000个单词之间。这些文本格式为书面作品，包含标点和语法。所有文本均为英文。

问题很简单：如何从给定文本中提取每一个WikiData实体？

实体被定义为每一个名词，无论是专有名词还是普通名词。即，人名、组织、地点以及诸如椅子、土豆等物品的名称。

到目前为止，我尝试了以下方法：

使用OpenNLP对文本进行分词，并使用预训练模型提取人名、地点、组织和普通名词。
在适用情况下应用Porter词干提取。
将所有提取的名词与wmflabs-API匹配，以检索潜在的WikiData ID。

这种方法有效，但我觉得可以做得更好。一个明显的改进是将相关WikiData片段本地缓存，我计划这样做。然而，在我这样做之前，我想看看是否有其他解决方案。

有什么建议吗？

我标记了Scala标签，因为我使用Spark来完成这项任务。

回答：

一些建议：

考虑使用Stanford NER与OpenNLP进行比较，看看在你的语料库上表现如何
我怀疑对大多数实体名称进行词干提取的价值
我怀疑你可能通过将任务分成离散阶段而丢失信息
尽管WikiData是新的，但任务本身并不新，因此你可以查看关于Freebase|DBpedia|Wikipedia实体识别|消歧的论文

特别是，DBpedia Spotlight就是专门为此任务设计的一个系统。

http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38389.pdf http://ceur-ws.org/Vol-1057/Nebhi_LD4IE2013.pdf

information-retrieval machine-learning scala wikidata wikidata-api

发表回复取消回复