如何获取两个完整文本文档之间的相似度指标?

假设我有三份文本文档,例如(假设是三份随机生成的文本)。

文档1:

“每一英里都像七点钟的瓷砖。希望他整个尊敬先生哦。可能的床你愉悦的礼貌男孩优雅的火腿。如果他高兴,他会阻止请求。图片也有关心,感到舒适。十个困难的相似热情也不。同样的公园承受着……”

文档2:

“风格也属于自己的文明外出。完美地冒犯尝试增加安排年龄绅士的结论。谁不常见我们的表达十增加偶尔旅行。曾经读过告诉年份可能给男人称呼它。激动的儿子转向肥胖收入玩结束检票口……”

如果我想用Python(使用库)获取一个关于这两个文档与第三个文档的相似度指标(换句话说,哪个文档与第三个文档更相似),最好的方法是什么?

编辑:我观察到其他问题是通过比较单个句子与其他句子来回答的,但我对这个不感兴趣,因为我想比较一个完整的文本(由相关句子组成)与另一个完整的文本,并获得一个数字(例如,这个数字可能比与目标文档相似度较低的另一个文档的比较结果更大)


回答:

这个问题没有简单的答案。因为相似度的表现会根据你想要执行的特定任务而有所不同。

尽管如此,你确实有几种选择来比较文本块。这篇文章比较并排列了几种计算句子相似度的方法,你可以聚合这些方法来执行完整文档的相似度比较。如何聚合这些?也将取决于你的特定任务。一个简单但通常表现良好的方法是计算两个(或更多)文档的平均句子相似度。

关于这个话题的其他有用链接包括:

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注