Home IT技术比较想法相似性的算法

比较想法相似性的算法

IT技术 xiaolong · 2025年4月4日 · 0 Comment

假设有一个任意文本框，用于记录对“你死前想做什么？”这个问题答案的记录。

我想利用一组响应字符串（最长240个字符），通过某种方式对它们进行排序、分组，并按想法（这可能只是如这个问题中描述的字符串相似性）进行计数。

有没有其他更好的方法来做类似的事情？
这与字符串相似性有何不同？
这是不是我们应该问的问题？

这里的想法是让人们反复在文本框中书写，我则提供一个数字，用来说明总体上，有802人写了大致相同的内容。

回答：

这比字符串相似性要难得多。你至少需要做以下几件事：

执行一些文本格式化/清理任务，如去除标点符号和常见的“停用词”。
从答案中出现的术语构建一个语料库（带有使用统计的词汇集合）。
为每个术语计算一个权重。
从每个答案构建一个文档向量（每个术语对应于一个高维欧几里得空间中的维度）。
对文档向量运行聚类算法。

阅读一本好的统计自然语言处理书籍，或者在谷歌上搜索好的介绍/教程（可能的术语：统计NLP，文本分类，聚类）。根据你选择的语言，你可能会找到一些库（weka或nltk想到），但无论如何你需要理解这些概念才能使用这些库。

algorithm artificial-intelligence nlp

发表回复取消回复