比较想法相似性的算法

假设有一个任意文本框,用于记录对“你死前想做什么?”这个问题答案的记录。

我想利用一组响应字符串(最长240个字符),通过某种方式对它们进行排序、分组,并按想法(这可能只是如这个问题中描述的字符串相似性)进行计数。

  1. 有没有其他更好的方法来做类似的事情?
  2. 这与字符串相似性有何不同?
  3. 这是不是我们应该问的问题?

这里的想法是让人们反复在文本框中书写,我则提供一个数字,用来说明总体上,有802人写了大致相同的内容


回答:

这比字符串相似性要难得多。你至少需要做以下几件事:

  • 执行一些文本格式化/清理任务,如去除标点符号和常见的“停用词”。
  • 从答案中出现的术语构建一个语料库(带有使用统计的词汇集合)。
  • 为每个术语计算一个权重。
  • 从每个答案构建一个文档向量(每个术语对应于一个高维欧几里得空间中的维度)。
  • 对文档向量运行聚类算法。

阅读一本好的统计自然语言处理书籍,或者在谷歌上搜索好的介绍/教程(可能的术语:统计NLP文本分类聚类)。根据你选择的语言,你可能会找到一些库(wekanltk想到),但无论如何你需要理解这些概念才能使用这些库。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注