文本中键值对的模式

我有一些从文本中提取的标签和属性。我正在寻找这些文档中标签和属性的模式(跨多个文档出现的键值对组合)。

我应该研究哪种算法和工具?我希望根据相关性和重要性对这些模式进行评分,而不仅仅是字符串匹配。

任何建议都会非常有帮助。谢谢


回答:

如果我正确理解了你的问题,你在谈论关联挖掘。例如:attr1==value1 ==> label=label1(95%的精确度)

有几种算法,其中一种是Apriori算法。

对你问题的另一种解释是特征选择,即选择对标签预测影响最大的属性。你可以检查信息增益/卡方选择,这些都在Weka中可以找到(www.cs.waikato.ac.nz/ml/weka)。

如果你不想使用这些算法并自己实现,最简单的实现方式如下:

attributes = new SortedSet()for a in attributes:    for label in labels:         for value in posible_values(a)            prob = count(a,value, label)/count(label) //这是概率标准,卡方效果更好            if(count(a)>MIN_SUPPORT) //不算太稀有                attrbutes.add(prob, (a, value, label))print(attributes)

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注