我需要一个高效解决以下问题的算法。我有一组通常一起出现的标签组合的元组。例如
(python, django, flask, numpy), (java, spring), (mysql, sql, join), (javascript, angularjs, ajax, deferred)
现在我有两个需求。
- 我需要从给定数据中形成不同的类别。
-
给定一个新的标签或标签元组,我需要找到这个标签与数据中所有其他不同标签一起出现的概率。例如:
假设新元组是 (nodejs, ajax) 那么概率可能是 (nodejs, ajax) - (javascript, angularjs, ajax, deferred) - .60 (nodejs, ajax) - (mysql, sql, join) - .20 (nodejs, ajax) - (java, spring) - .20 等等
我应该如何解决这个问题。
回答:
因此,解决这个问题的有效方法是使用Apriori算法
。它将为交易数据库提供关联规则(将每一行视为一笔交易)。下面是一个非常简单的教程和实现的链接。http://aimotion.blogspot.com/2013/01/machine-learning-and-data-mining.html