从非结构化字符串中提取键值对的最佳方法？

尽量避免针对特定模式的硬编码规则。

我目前正在从事一个类似于AWS Textract的项目，链接在此。我已经成功地从文件中提取了数据，但这些数据是以非结构化的方式呈现的。现在，我正在尝试找出从这些信息中提取现有键值对的最佳方法。

例如，我们有这样的文本：

在这个文档中，我们会发现不同的键和值，比如id : 1和country : France，没有特定的标点符号，并且可能会谈到我的健康状况如何好…

提取的结果会是这样的：

id : 1country : Francehealth : good

我所知道的是，亚马逊在从这种场景中提取信息时使用了一个“置信度”变量，我猜这涉及到某种机器学习算法。在我的情况下，我没有那么大的数据库可以学习。

我很确定一定有更简单且同样灵活的解决方案。

回答：

我认为spaCy库可能是你需求的正确工具。查看GitHub上的描述以了解更多信息。

它可以通过spacy-nlp包暴露给Node JS使用。

学技术