我在处理大约500万个地址的列表中检测重复项,正在寻找一种高效的算法来完成这个任务。我在GitHub上查看了Dedupe库(https://github.com/datamade/dedupe),但根据文档,我不确定它是否能很好地扩展到大型应用中。
顺便说一下,我只是想基于文本相似性来定义重复项——我已经对地址进行了大量清理。我一直在使用基于Levenshtein距离的粗糙方法,但我想知道对于大型数据集是否有更高效的方法。
谢谢,
回答:
Dedupe应该可以很好地处理这种规模的数据。
Michael Wick 和 Beka Steorts 已经在这一领域开展了一些出色的工作,他们的算法复杂度比Dedupe更好。