我有一些从文本中提取的标签和属性。我正在寻找这些文档中标签和属性的模式(跨多个文档出现的键值对组合)。
我应该研究哪种算法和工具?我希望根据相关性和重要性对这些模式进行评分,而不仅仅是字符串匹配。
任何建议都会非常有帮助。谢谢
回答:
如果我正确理解了你的问题,你在谈论关联挖掘。例如:attr1==value1 ==> label=label1(95%的精确度)
有几种算法,其中一种是Apriori算法。
对你问题的另一种解释是特征选择,即选择对标签预测影响最大的属性。你可以检查信息增益/卡方选择,这些都在Weka中可以找到(www.cs.waikato.ac.nz/ml/weka)。
如果你不想使用这些算法并自己实现,最简单的实现方式如下:
attributes = new SortedSet()for a in attributes: for label in labels: for value in posible_values(a) prob = count(a,value, label)/count(label) //这是概率标准,卡方效果更好 if(count(a)>MIN_SUPPORT) //不算太稀有 attrbutes.add(prob, (a, value, label))print(attributes)