机器学习能否用于验证文本文档中的陈述或捕捉错误?
例如,如果你教一个分类器“每天应该吃两次苹果”,但在你测试的文档中,语句是“每天应该吃三次苹果”,能否标记出这个语句?
显然,你可以构建一些基于规则的软件来捕捉这些错误,但我的问题是关于训练机器学习模型来捕捉这些错误,因为规则会发生变化。
我已经研究了word2vec和NLTK,并用它们进行了一些测试,但无法将这些点连接起来以教导分类器。
如果这是可能的,应该如何进行或提供一些指导?
谢谢,@Doug
回答:
(评论太长了。)
是的,它可以。然而,这非常复杂。例如,Watson就是通过这种推理和分析来完成的。IBM称之为认知计算。正如你所写,基于规则(或逻辑推理)的系统可以解决这样的任务。所以你应该问自己的问题是如何从文本中提取所需的事实。=> NLP,词性标注,命名实体识别…然而,这项任务极其困难,因为“一天不超过100次”并不与该句子相矛盾。因此,推理需要丰富的背景知识。
正如所说,这是一个极其广泛的话题。你需要勾画出解决方案,然后选择一个很小的部分,这将被称为博士论文;)。这在这张很好的图片中得到了说明。
所以,使用正确的关键词搜索博士论文,结果找到了这个。这可能会给你几晚的阅读时间。
如果你想用NLTK尝试一些实际操作,我会为你想要分析的句子生成解析树。之后,你可以尝试对齐这些树并检查重叠和偏差。然而,我不确定如何得出结论。一个稍微简单的方法是逐词匹配。类似于计算Levenshtein距离的方法。