从句子中提取“有用”的信息?

我目前正在尝试理解这种形式的句子:

问题更多出在机顶盒而不是电视上。重新启动机顶盒解决了问题。

我对自然语言处理完全是新手,并开始使用Python的NLTK包来实践。然而,我想知道是否有人能给我一个实现这一目标的高层次步骤概述。

我试图做的是识别问题是什么,在这个例子中是机顶盒,以及采取的行动是否解决了问题,在这个例子中是,因为重新启动解决了问题。所以如果所有句子都是这种形式,我的生活会更容易,但因为这是自然语言,句子也可能如下形式:

我检查了汽车,没有发现任何问题。然而,我怀疑引擎有问题

所以在这种情况下,问题出在汽车上。采取的行动没有解决问题,因为有怀疑这个词。潜在的问题可能出在引擎上。

我并不是在寻找一个绝对的答案,因为我怀疑这非常复杂。我寻找的是一个更高层次的概述,指引我正确的方向。如果有更简单/替代的方法来做这件事,也欢迎提供。


回答:

如果句子结构良好,我可能会尝试使用依存句法分析(http://nltk.googlecode.com/svn/trunk/doc/api/nltk.parse.malt.MaltParser-class.html#raw_parse)。这会给你一个句子成分的图表,你可以了解词汇项目之间的关系。后来,你可以从依存句法分析的输出中提取短语(http://nltk.googlecode.com/svn/trunk/doc/book/ch08.html#code-cfg2)。这可以帮助你提取句子的直接宾语,或句子中的动词短语。

如果你只是想从句子中获取短语或“块”,你可以尝试使用块解析器(http://nltk.googlecode.com/svn/trunk/doc/api/nltk.chunk-module.html)。你还可以进行命名实体识别(http://streamhacker.com/2009/02/23/chunk-extraction-with-nltk/)。它通常用于提取地点、组织或人名的实例,但在你的情况下也可能适用。

假设你解决了从句子中提取名词/动词短语的问题,你可能需要过滤它们,以减轻领域专家的工作负担(太多的短语可能会使评判者感到 overwhelmed)。你可以对你的短语进行频率分析,删除那些通常与问题领域无关的非常频繁的短语,或者编制一个白名单,保留包含预定义词集的短语,等等。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注