如何在字符串对象上运行K-means算法？

我正在进行一个项目，需要根据句子的相似性对它们进行分组。

例如，这些句子需要被分组到一个单一的簇中：

标题不断涌入，因此我可能需要即时调整和修改这些簇。目前我使用Monge-Elkan算法来识别两个字符串的相似性，但我不知道如何对它们进行聚类。

在网上搜索让我认为我需要使用K-means算法来对内容进行分组，但我不知道如何继续进行我手头的工作。

事情稍微复杂的是，我已经将它托管在Google App Engine上，所以我不能使用文件系统。

回答：

编辑距离度量不太可能有效地模拟句子含义的相似性，我认为这是你所追求的。同样，文本作为字符字符串的低级表示也是如此。

更好的方法是使用更高级的表示，例如向量空间模型。在这里，你收集句子集合（语料库）中所有独特的词，并将它们映射到一个数字。每个文档（句子）然后被表示为一个向量：

[w1_count, w2_count, …, wN_count]

其中第N个元素是给定句子中第N个词（映射到数字N的词）的计数。

现在你可以在这个数据集上运行k-means，但更好的方法是：

处理数据，使得像’苹果’这样的重要词比像’在’或’上’这样的常见词获得更高的权重。一种这样的技术是TF-IDF。然后在这个基础上使用欧几里得距离运行标准k-means。
更进一步，使用更高级的工具，如潜在语义分析或潜在Dirichlet分配。

如果你想继续使用你现有的方法，Simon G.的回答为你指明了正确的方向，相似性到距离的转换在这个问题中得到了解答。

学技术