我在StackOverflow和Google上搜索了很多,但没有找到最佳答案。实际上,我打算开发一个新闻阅读系统,通过爬虫从网络上抓取和收集新闻,然后我想在网站上查找相似或相关的新聞(以防止在网站上显示重复的新闻)。
我认为Google新闻是一个很好的实时例子,它从网络上收集新闻,然后分类并查找相关的新闻和文章。这正是我想要做的。
进行这项任务的最佳算法是什么?
回答:
一个相对简单的解决方案是为每篇文档计算一个tf-idf向量(en.wikipedia.org/wiki/Tf*idf),然后使用这些向量之间的余弦距离(en.wikipedia.org/wiki/Cosine_similarity)作为文章之间语义距离的估计值。
这可能会比Levenstein距离更好地捕捉语义关系,并且计算速度也更快。