使用NLP查询结构化数据有意义吗?

我知道这个问题可能不适合在SO上提问,但请暂时让这个问题留在这里。上次我的问题被转移到cross-validated后,就陷入了停滞,没有更多的浏览量或反馈。


我遇到一个对我来说不太理解的问题。如何通过NLP查询IFC模型?请将IFC模型视为语义丰富的结构化数据。IFC定义了一种基于EXPRESS的实体关系模型,由组织成基于对象的继承层次结构的实体组成。实体的例子包括建筑元素、几何形状和基本构造。

如何使用NLP处理这种类型的数据?我完全不觉得NLP在这里有相关性。


回答:

总的来说,我建议使用NLP技术来“查询”已经(相当正式的)结构化的数据(如EXPRESS)在最好的情况下是大材小用,最坏的情况下是时间和维护的陷阱。一般来说,NLP的优势(如人类语言歧义解析、共指解析、文本摘要、文本蕴含等)在你已经拥有如此明确的编码时完全没有必要。如果有的话,你可以想象将此模式直接翻译成Prolog应用程序以进行直接逻辑查询等(这与NLP完全不同)。

我进行了一些搜索,试图找到你可能提到的参考资料。我找到的唯一一项是使用语义自然语言处理技术半自动扩展建筑信息模型

… 作者提出了一种新的方法,以客观和半自动的方式扩展IFC模式以纳入与CC相关的信息。该方法利用语义自然语言处理技术和机器学习技术从与CC[合规性检查]相关的文档(例如建筑法规)中提取概念,并将提取的概念与IFC类层次结构中的概念匹配。

所以至少在这个例子中,作者并不是用NLP“查询”IFC模式,而是用它来增强现有模式,并从人类可读的文本中提取附加信息。这更有意义。如果你想发布包含“NLP查询”短语的实际URL或参考,我应该能够更具体地评论。

编辑:

你提到的项目拨款摘要没有包含太多细节,但他们有这样一句:

… 嵌入在参数化3D模型中的信息旨在用于设施或工作场所管理,使用适当的软件。然而,当这些信息与物联网传感器和认知计算相结合时,也有可能被医疗专业人员在环境辅助生活(AAL)环境中利用。本项目将研究如何通过自然语言处理查询医疗设施的已建BIM模型以支持AAL。…

我只能推测可能使用NLP框架用于此目的的原因如下:

虽然BIM模型包括行业基础类(IFC)和aecXML,但还有许多其他格式,其中许多是专有的。有些是与CAD集成的,有些是独立的。与其支付许多专有许可证(其中一些企业产品价格昂贵),和/或花时间为各种不同的文件格式规范开发适当的结构化查询行为(在专有情况下这些规范可能无法公开获得),作者选择了一种更自动化、更通用的解决方案来提取他们寻找的内容(我假设在几乎所有情况下都必须是文本或文本标签)。这几乎类似于搜索引擎“抓取”网站并寻找关键词或短语及其同义词等。好处是他们不必明确针对所有可能的BIM文件格式进行编码以获得良好的覆盖率,也不必支付大笔费用。缺点是他们打开了与NLP相关的新问题和考虑,包括训练、验证、监督等。并且NLP永远无法获得对已知模式进行真正结构化查询时所能获得的相同水平的准确性。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注