假设有一个任意文本框,用于记录对“你死前想做什么?”这个问题答案的记录。
我想利用一组响应字符串(最长240个字符),通过某种方式对它们进行排序、分组,并按想法(这可能只是如这个问题中描述的字符串相似性)进行计数。
- 有没有其他更好的方法来做类似的事情?
- 这与字符串相似性有何不同?
- 这是不是我们应该问的问题?
这里的想法是让人们反复在文本框中书写,我则提供一个数字,用来说明总体上,有802人写了大致相同的内容。
回答:
这比字符串相似性要难得多。你至少需要做以下几件事:
- 执行一些文本格式化/清理任务,如去除标点符号和常见的“停用词”。
- 从答案中出现的术语构建一个语料库(带有使用统计的词汇集合)。
- 为每个术语计算一个权重。
- 从每个答案构建一个文档向量(每个术语对应于一个高维欧几里得空间中的维度)。
- 对文档向量运行聚类算法。
阅读一本好的统计自然语言处理书籍,或者在谷歌上搜索好的介绍/教程(可能的术语:统计NLP,文本分类,聚类)。根据你选择的语言,你可能会找到一些库(weka或nltk想到),但无论如何你需要理解这些概念才能使用这些库。