使用同义词的文档相似性

我有一堆文档，其中一些文档是其他文档的副本，文本被打乱，并且一些单词被替换成了它们的同义词。下面是一个这样的句子示例：

文章1（原件） : 我和约翰·斯诺在镇上赶上了，他在Kingslanding五金店购买东西来修理一台坏掉的拖拉机。斯诺一生都在种植大豆，就像他的父亲和他们的父亲一样。我问了他关于他在农场的生活。

文章2（副本） : 我得到了约翰·斯诺，他在城市里购买东西，提升了Kingslanding的五金店来修理一台坏掉的机动拖拉机。斯诺一生都在处理大豆，就像他的父亲和他们的父亲一样。我问了他关于他在农业公司的生活。

文章3（副本） : 我和约翰·斯诺在城市里赶上了，他在Kingslanding的五金仓库购买东西来修理一台坏掉的拖拉机。斯诺一生都在种植大豆，就像他的父亲和他的父母一样。我问了他关于他在农场的生活。

文章4（副本） : 我和约翰·斯诺在市中心赶上了，他在Kingslanding的材料商店购买东西来修理一台坏掉的拖拉机。斯诺一生都在种植大豆，就像他的父亲和他们的父亲一样。我问了他关于他在农场的生活。

我想进行文档相似性分析，最终将所有这些文档标记在同一组中。任何建议以及示例或教程都将不胜感激。

回答：

这似乎是局部敏感哈希的一个典型案例。查看这个Stack Overflow讨论

学技术

使用同义词的文档相似性

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复