从句子中提取“有用”的信息?

我目前正在尝试理解这种形式的句子:

问题更多出在机顶盒而不是电视上。重新启动机顶盒解决了问题。

我对自然语言处理完全是新手,并开始使用Python的NLTK包来实践。然而,我想知道是否有人能给我一个实现这一目标的高层次步骤概述。

我试图做的是识别问题是什么,在这个例子中是机顶盒,以及采取的行动是否解决了问题,在这个例子中是,因为重新启动解决了问题。所以如果所有句子都是这种形式,我的生活会更容易,但因为这是自然语言,句子也可能如下形式:

我检查了汽车,没有发现任何问题。然而,我怀疑引擎有问题

所以在这种情况下,问题出在汽车上。采取的行动没有解决问题,因为有怀疑这个词。潜在的问题可能出在引擎上。

我并不是在寻找一个绝对的答案,因为我怀疑这非常复杂。我寻找的是一个更高层次的概述,指引我正确的方向。如果有更简单/替代的方法来做这件事,也欢迎提供。


回答:

如果句子结构良好,我可能会尝试使用依存句法分析(http://nltk.googlecode.com/svn/trunk/doc/api/nltk.parse.malt.MaltParser-class.html#raw_parse)。这会给你一个句子成分的图表,你可以了解词汇项目之间的关系。后来,你可以从依存句法分析的输出中提取短语(http://nltk.googlecode.com/svn/trunk/doc/book/ch08.html#code-cfg2)。这可以帮助你提取句子的直接宾语,或句子中的动词短语。

如果你只是想从句子中获取短语或“块”,你可以尝试使用块解析器(http://nltk.googlecode.com/svn/trunk/doc/api/nltk.chunk-module.html)。你还可以进行命名实体识别(http://streamhacker.com/2009/02/23/chunk-extraction-with-nltk/)。它通常用于提取地点、组织或人名的实例,但在你的情况下也可能适用。

假设你解决了从句子中提取名词/动词短语的问题,你可能需要过滤它们,以减轻领域专家的工作负担(太多的短语可能会使评判者感到 overwhelmed)。你可以对你的短语进行频率分析,删除那些通常与问题领域无关的非常频繁的短语,或者编制一个白名单,保留包含预定义词集的短语,等等。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注