从非结构化字符串中提取键值对的最佳方法?

尽量避免针对特定模式的硬编码规则。

我目前正在从事一个类似于AWS Textract的项目,链接在此。我已经成功地从文件中提取了数据,但这些数据是以非结构化的方式呈现的。现在,我正在尝试找出从这些信息中提取现有键值对的最佳方法。

例如,我们有这样的文本:

在这个文档中,我们会发现不同的键和值,比如id : 1和country : France,没有特定的标点符号,并且可能会谈到我的健康状况如何好…

提取的结果会是这样的:

id : 1country : Francehealth : good

我所知道的是,亚马逊在从这种场景中提取信息时使用了一个“置信度”变量,我猜这涉及到某种机器学习算法。在我的情况下,我没有那么大的数据库可以学习。

我很确定一定有更简单且同样灵活的解决方案。


回答:

我认为spaCy库可能是你需求的正确工具。查看GitHub上的描述以了解更多信息。

它可以通过spacy-nlp包暴露给Node JS使用。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注