文本内容相关性检查

Amazon.in pic

我需要检查特定网页上内容的相关性。我有数千个网页需要进行此检查。检查页面标题与页面内容是否相关的最佳方法是什么?


回答:

你的问题有些模糊,当你说:

检查页面标题与页面内容是否相关的最佳方法是什么?

在你的问题背景下,相关性是如何定义的?

我不知道这是否是你想要的,但我想到了几件事,基本上是比较两个文档的相似度,一个文档是标题,另一个是描述。

你可以考虑生成两者的向量表示并比较它们的相似度的方法。

  1. 使用令牌作为两个集合(即文档)的元素来计算Jaccard相似度
  2. 计算TF-IDF加权向量,并使用余弦相似度进行比较
  3. 为每个文档计算分布主题模型/LDA,并使用Kullback-Leibler散度进行比较
  4. 将文档编码成某种密集向量(doc2vec,或者通过LSTM读取并保留最后状态),然后比较两个向量。

唯一需要考虑的是,标题的尺寸与网页内容相比非常小。

Related Posts

在使用k近邻算法时,有没有办法获取被使用的“邻居”?

我想找到一种方法来确定在我的knn算法中实际使用了哪些…

Theano在Google Colab上无法启用GPU支持

我在尝试使用Theano库训练一个模型。由于我的电脑内…

准确性评分似乎有误

这里是代码: from sklearn.metrics…

Keras Functional API: “错误检查输入时:期望input_1具有4个维度,但得到形状为(X, Y)的数组”

我在尝试使用Keras的fit_generator来训…

如何使用sklearn.datasets.make_classification在指定范围内生成合成数据?

我想为分类问题创建合成数据。我使用了sklearn.d…

如何处理预测时不在训练集中的标签

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注