比较想法相似性的算法

假设有一个任意文本框,用于记录对“你死前想做什么?”这个问题答案的记录。

我想利用一组响应字符串(最长240个字符),通过某种方式对它们进行排序、分组,并按想法(这可能只是如这个问题中描述的字符串相似性)进行计数。

  1. 有没有其他更好的方法来做类似的事情?
  2. 这与字符串相似性有何不同?
  3. 这是不是我们应该问的问题?

这里的想法是让人们反复在文本框中书写,我则提供一个数字,用来说明总体上,有802人写了大致相同的内容


回答:

这比字符串相似性要难得多。你至少需要做以下几件事:

  • 执行一些文本格式化/清理任务,如去除标点符号和常见的“停用词”。
  • 从答案中出现的术语构建一个语料库(带有使用统计的词汇集合)。
  • 为每个术语计算一个权重。
  • 从每个答案构建一个文档向量(每个术语对应于一个高维欧几里得空间中的维度)。
  • 对文档向量运行聚类算法。

阅读一本好的统计自然语言处理书籍,或者在谷歌上搜索好的介绍/教程(可能的术语:统计NLP文本分类聚类)。根据你选择的语言,你可能会找到一些库(wekanltk想到),但无论如何你需要理解这些概念才能使用这些库。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注