Home IT技术大数据集中检测文本重复的高效算法

大数据集中检测文本重复的高效算法

IT技术 xiaolong · 2025年4月10日 · 0 Comment

我在处理大约500万个地址的列表中检测重复项，正在寻找一种高效的算法来完成这个任务。我在GitHub上查看了Dedupe库（https://github.com/datamade/dedupe），但根据文档，我不确定它是否能很好地扩展到大型应用中。

顺便说一下，我只是想基于文本相似性来定义重复项——我已经对地址进行了大量清理。我一直在使用基于Levenshtein距离的粗糙方法，但我想知道对于大型数据集是否有更高效的方法。

谢谢，

回答：

Dedupe应该可以很好地处理这种规模的数据。

Michael Wick 和 Beka Steorts 已经在这一领域开展了一些出色的工作，他们的算法复杂度比Dedupe更好。

algorithm cluster-analysis context-free-grammar machine-learning

发表回复取消回复