如何获取两个完整文本文档之间的相似度指标?

假设我有三份文本文档,例如(假设是三份随机生成的文本)。

文档1:

“每一英里都像七点钟的瓷砖。希望他整个尊敬先生哦。可能的床你愉悦的礼貌男孩优雅的火腿。如果他高兴,他会阻止请求。图片也有关心,感到舒适。十个困难的相似热情也不。同样的公园承受着……”

文档2:

“风格也属于自己的文明外出。完美地冒犯尝试增加安排年龄绅士的结论。谁不常见我们的表达十增加偶尔旅行。曾经读过告诉年份可能给男人称呼它。激动的儿子转向肥胖收入玩结束检票口……”

如果我想用Python(使用库)获取一个关于这两个文档与第三个文档的相似度指标(换句话说,哪个文档与第三个文档更相似),最好的方法是什么?

编辑:我观察到其他问题是通过比较单个句子与其他句子来回答的,但我对这个不感兴趣,因为我想比较一个完整的文本(由相关句子组成)与另一个完整的文本,并获得一个数字(例如,这个数字可能比与目标文档相似度较低的另一个文档的比较结果更大)


回答:

这个问题没有简单的答案。因为相似度的表现会根据你想要执行的特定任务而有所不同。

尽管如此,你确实有几种选择来比较文本块。这篇文章比较并排列了几种计算句子相似度的方法,你可以聚合这些方法来执行完整文档的相似度比较。如何聚合这些?也将取决于你的特定任务。一个简单但通常表现良好的方法是计算两个(或更多)文档的平均句子相似度。

关于这个话题的其他有用链接包括:

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注