我目前正在尝试理解这种形式的句子:
问题更多出在机顶盒而不是电视上。重新启动机顶盒解决了问题。
我对自然语言处理完全是新手,并开始使用Python的NLTK包来实践。然而,我想知道是否有人能给我一个实现这一目标的高层次步骤概述。
我试图做的是识别问题是什么,在这个例子中是机顶盒
,以及采取的行动是否解决了问题,在这个例子中是是
,因为重新启动解决了问题。所以如果所有句子都是这种形式,我的生活会更容易,但因为这是自然语言,句子也可能如下形式:
我检查了汽车,没有发现任何问题。然而,我怀疑引擎有问题
所以在这种情况下,问题出在汽车
上。采取的行动没有解决问题,因为有怀疑
这个词。潜在的问题可能出在引擎
上。
我并不是在寻找一个绝对的答案,因为我怀疑这非常复杂。我寻找的是一个更高层次的概述,指引我正确的方向。如果有更简单/替代的方法来做这件事,也欢迎提供。
回答:
如果句子结构良好,我可能会尝试使用依存句法分析(http://nltk.googlecode.com/svn/trunk/doc/api/nltk.parse.malt.MaltParser-class.html#raw_parse)。这会给你一个句子成分的图表,你可以了解词汇项目之间的关系。后来,你可以从依存句法分析的输出中提取短语(http://nltk.googlecode.com/svn/trunk/doc/book/ch08.html#code-cfg2)。这可以帮助你提取句子的直接宾语,或句子中的动词短语。
如果你只是想从句子中获取短语或“块”,你可以尝试使用块解析器(http://nltk.googlecode.com/svn/trunk/doc/api/nltk.chunk-module.html)。你还可以进行命名实体识别(http://streamhacker.com/2009/02/23/chunk-extraction-with-nltk/)。它通常用于提取地点、组织或人名的实例,但在你的情况下也可能适用。
假设你解决了从句子中提取名词/动词短语的问题,你可能需要过滤它们,以减轻领域专家的工作负担(太多的短语可能会使评判者感到 overwhelmed)。你可以对你的短语进行频率分析,删除那些通常与问题领域无关的非常频繁的短语,或者编制一个白名单,保留包含预定义词集的短语,等等。