Home IT技术句子聚类

句子聚类

IT技术 xiaolong · 2025年4月12日 · 0 Comment

我有大量来自不同来源的名称。

我需要提取所有在不同名称中重复出现的组（名称的一部分）。在下面的示例中，程序应该找到：Post, Office, Post Office。
我需要获取流行度计数。

所以我想提取一个按流行度排序的短语列表。

这里是名称的示例：

Post Office - High LittletonPost Office Pilton Outreach ServicesTown Street Post Officepost office St Thomas

基本上需要找出某种算法或更好的库，以获得这样的结果：

Post Office: 16999Post: 17934Office: 16999Tesco: 7300...

这是名称的完整示例。

我写了一个代码，适用于单个词，但不适用于句子：

from textblob import TextBlobimport operatortitle_file = open("names.txt", 'r')blob = TextBlob(title_file.read())list = sorted(blob.word_counts.items(), key=operator.itemgetter(1))print list

回答：

你并不是在寻找聚类（这可能就是为什么“它们都糟透了”对于@和@来说）。

你真正寻找的是词计数（更准确地说，是n-gram计数）。这实际上是一个更简单的问题。这就是为什么你找不到任何相关的库…

实际上，你有一些库。例如，在Python中，collections模块有一个Counter类，其中包含了很多可重用的代码。

一个未经测试的、非常基础的代码：

from collections import Countercounter = Counter()for s in sentences:  words = s.split(" ")  for i in range(len(words)):    counter.add(words[i])    if i > 0: counter.add((words[i-1], words[i]))

你可以从counter中获取最常见的。如果你想将单词和词对分开，可以使用两个计数器。如果你需要更长的短语，可以添加一个内部循环。你可能还需要清理句子（例如，转换为小写）并使用正则表达式进行分割。

xiaolong

发表回复取消回复

Home IT技术句子聚类

句子聚类

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我想了解一些关于词语相似性数据分析的好方法。我想知道相似性算法与分类技术的比较，以便获得最佳的聚类解决方案。

回答：

请查看这个网站：http://sujitpal.blogspot.com/2008/10/ir-math-in-java-experiments-in.html#ga

这将帮助你了解不同的算法，你可以根据你的需求选择最佳的算法。

java machine-learning

xiaolong

相关文章：

Related Posts

发表回复 取消回复

相关文章：

Related Posts

发表回复 取消回复

发表回复取消回复

发表回复取消回复