假设我有三份文本文档,例如(假设是三份随机生成的文本)。
文档1:
“每一英里都像七点钟的瓷砖。希望他整个尊敬先生哦。可能的床你愉悦的礼貌男孩优雅的火腿。如果他高兴,他会阻止请求。图片也有关心,感到舒适。十个困难的相似热情也不。同样的公园承受着……”
文档2:
“风格也属于自己的文明外出。完美地冒犯尝试增加安排年龄绅士的结论。谁不常见我们的表达十增加偶尔旅行。曾经读过告诉年份可能给男人称呼它。激动的儿子转向肥胖收入玩结束检票口……”
如果我想用Python(使用库)获取一个关于这两个文档与第三个文档的相似度指标(换句话说,哪个文档与第三个文档更相似),最好的方法是什么?
编辑:我观察到其他问题是通过比较单个句子与其他句子来回答的,但我对这个不感兴趣,因为我想比较一个完整的文本(由相关句子组成)与另一个完整的文本,并获得一个数字(例如,这个数字可能比与目标文档相似度较低的另一个文档的比较结果更大)
回答:
这个问题没有简单的答案。因为相似度的表现会根据你想要执行的特定任务而有所不同。
尽管如此,你确实有几种选择来比较文本块。这篇文章比较并排列了几种计算句子相似度的方法,你可以聚合这些方法来执行完整文档的相似度比较。如何聚合这些?也将取决于你的特定任务。一个简单但通常表现良好的方法是计算两个(或更多)文档的平均句子相似度。
关于这个话题的其他有用链接包括: