从句子中提取“有用”的信息？

我目前正在尝试理解这种形式的句子：

问题更多出在机顶盒而不是电视上。重新启动机顶盒解决了问题。

我对自然语言处理完全是新手，并开始使用Python的NLTK包来实践。然而，我想知道是否有人能给我一个实现这一目标的高层次步骤概述。

我试图做的是识别问题是什么，在这个例子中是机顶盒，以及采取的行动是否解决了问题，在这个例子中是是，因为重新启动解决了问题。所以如果所有句子都是这种形式，我的生活会更容易，但因为这是自然语言，句子也可能如下形式：

我检查了汽车，没有发现任何问题。然而，我怀疑引擎有问题

所以在这种情况下，问题出在汽车上。采取的行动没有解决问题，因为有怀疑这个词。潜在的问题可能出在引擎上。

我并不是在寻找一个绝对的答案，因为我怀疑这非常复杂。我寻找的是一个更高层次的概述，指引我正确的方向。如果有更简单/替代的方法来做这件事，也欢迎提供。

回答：

如果句子结构良好，我可能会尝试使用依存句法分析（http://nltk.googlecode.com/svn/trunk/doc/api/nltk.parse.malt.MaltParser-class.html#raw_parse）。这会给你一个句子成分的图表，你可以了解词汇项目之间的关系。后来，你可以从依存句法分析的输出中提取短语（http://nltk.googlecode.com/svn/trunk/doc/book/ch08.html#code-cfg2）。这可以帮助你提取句子的直接宾语，或句子中的动词短语。

如果你只是想从句子中获取短语或“块”，你可以尝试使用块解析器（http://nltk.googlecode.com/svn/trunk/doc/api/nltk.chunk-module.html）。你还可以进行命名实体识别（http://streamhacker.com/2009/02/23/chunk-extraction-with-nltk/）。它通常用于提取地点、组织或人名的实例，但在你的情况下也可能适用。

假设你解决了从句子中提取名词/动词短语的问题，你可能需要过滤它们，以减轻领域专家的工作负担（太多的短语可能会使评判者感到 overwhelmed）。你可以对你的短语进行频率分析，删除那些通常与问题领域无关的非常频繁的短语，或者编制一个白名单，保留包含预定义词集的短语，等等。

学技术

从句子中提取“有用”的信息？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复