从句子中提取有意义的子句

是否有方法可以从一个句子中找出所有仍然有意义且至少包含一个主语、动词和谓语/宾语的子句?

例如,如果我们有一句话:“我下个月将在奥斯汀的SXSW上做一个关于NLP的研讨会”。我们可以从这句话中提取以下有意义的子句:“我将做一个研讨会”,“我将做一个关于NLP的研讨会”,“我将在SXSW做一个关于NLP的研讨会”,“我将在SXSW做一个研讨会”,“我将在奥斯汀做一个研讨会”,“我将下个月做一个关于NLP的研讨会”等。

请注意,这里没有推导出的句子(例如,“下个月在SXSW将有一个关于NLP的研讨会”。虽然这是真的,但我们不需要将其作为此问题的部分)。所有生成的句子严格来说都是给定句子的一部分。

我们如何解决这个问题?我在考虑创建带有注释的训练数据,每个句子在训练数据集中都有一组合法的子句。然后编写一些监督学习算法来生成模型。

我对NLP和机器学习还比较新手,所以如果你们能建议一些解决这个问题的办法就太好了。


回答:

有一篇题为“Using Discourse Commitments to Recognize Textual Entailment”的论文,由Hickl等人撰写,讨论了话语承诺(子句)的提取。该论文包括了他们算法的描述,该算法在某种程度上基于规则运作。他们将其用于RTE,输出中可能存在最小的推理水平。文本简化可能是另一个值得研究的相关领域。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注