使用NLP或机器学习从句子中提取关键词

我刚接触ML/NLP领域，所以我的问题是：要实现以下目标，最适合的技术是什么：

我们有一个简短的句子 – “去哪里吃晚餐？”或“你的最爱酒吧是哪家？”或“你的最爱便宜酒吧是哪家？”

有没有一种技术可以让我通过提供以下数据集来训练它：

这样，当我们下次遇到关于未知活动的类似问题时，比如，“你最喜欢的昂贵的[任何东西]是什么”，它能够提取出“昂贵”和[任何东西]？

目标是，如果我们能用数百种（或数千种）提问的变体和预期的相关输出数据来训练它，那么它就能处理日常语言。

我知道如果我们有一本包含预期术语的词典，比如酒吧、餐馆、游泳池等，即使没有NLP/ML，我也知道如何实现。但我们也希望它能处理未知术语。

我见过使用Rake和Scikit-learn进行“事物”分类的例子，但我不知道如何将文本输入到这些工具中，而且所有这些例子都有预定义的训练输出。

我还尝试了Google的NLP API、Amazon Lex和Wit，看看它们在提取实体方面的表现如何，但结果至少可以说是令人失望的。

阅读关于摘要技术的资料后，我觉得它不适用于小型、单句文本，所以我没有深入研究。

回答：

正如@***提到，对于简单的事情，你可以使用词性标注来进行提取。你提到的服务如LUIS、Dialog flow等，使用的是所谓的自然语言理解。它们利用意图和实体（你可以在这里找到详细的解释和例子）。如果你担心你的数据会上线，或者有时你需要离线使用，你可以选择RASA。

你可以用RASA做的事情包括：

你可以在这里找到教程。

我有 疼痛 在我的 腿。

例如，我已经用各种句子训练了RASA来识别身体部位和症状（我仅限于两个实体，你可以添加更多），然后当出现一个未知的句子（如上面的例子）时，它会正确地将“疼痛”识别为“症状”，将“腿”识别为“身体部位”。

希望这能回答你的问题！

学技术