从文本中提取关键词/关键短语

我正在进行一个项目，需要从文本中提取“与技术相关的关键词/关键短语”。例如，我的文本是：

“ABC Inc 一直在进行一个与机器学习相关的项目，该项目利用现有库从大数据中查找信息。”

提取的关键词/关键短语应该是：{机器学习, 大数据}。

我的文本文档存储在MongoDb中，格式为BSON文档。

进行此任务的最佳NLP库（带有足够的文档和示例）有哪些？如何使用它们？

谢谢！

回答：

看起来你需要做的不仅仅是提取关键词/关键短语，还需要找出每句话的主语和宾语。对于主语/宾语识别，我推荐使用Stanford Parser或Google Language API，您可以发送一个字符串并获得依赖树响应。

您可以先测试Google API，看看它是否适合您的语料库：https://cloud.google.com/natural-language/

这里的结果是主谓宾（SPO）三元组，您的谓语描述了关系。您需要遍历依赖图并编写脚本来解析出三元组。

其他包：我经常使用NLTK、Spacy和Textblob。如果语料库简单、通用且直接，Spacy和Textblob开箱即用效果很好。如果语料库高度定制、领域特定、混乱（拼写或语法错误）等，我会使用NLTK，并花更多时间定制我的NLP文本处理流程，包括清洗、词形还原等。您可能需要添加自己的技术相关关键词和关键短语的自定义词典，以便您的解析器能够捕捉到这些，如果您决定使用这些包中的一个的话。

NLTK教程：http://www.nltk.org/book/

Spacy快速入门：https://spacy.io/usage/

Textblob快速入门：http://textblob.readthedocs.io/en/dev/quickstart.html

学技术

从文本中提取关键词/关键短语

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复