如何使用自然语言处理将文本映射到预设的主题列表

我对使用像Google自然语言API这样的服务来将随机用户问题分类到预设的主题列表中很感兴趣。我拥有高级编程经验,希望以Google的服务为基础,如果有必要,围绕它构建一个代码库来实现我们的目标。一个示例用例将是:

硬编码的预设主题列表:
棒球
橄榄球
足球

用户样本问题和预期结果:
我如何烹饪意大利面?结果:无结果
什么是裁判?结果:棒球/橄榄球/足球
什么是本垒打?结果:棒球

1) 是否已经存在可以将随机用户文本分类到预设主题列表中的类似服务?
2) 如果没有,是否存在已经展示如何实现此功能的编程概念,或者允许我学习相关概念的资源?(我在Google上搜索了,没有找到任何相关内容——可能是我不知道该搜索什么)
3) 如果没有,关于如何实现这一点有什么指导建议吗?


回答:

这听起来像是一个基本的分类问题,或者更具体地说,可能是意图分类

Google有一份指南,介绍如何创建分类程序。你应该从那里开始。

分类器的输出将为你提供一个带有每个主题概率的主题列表。如果你想允许多个概率,这更难做到正确,你可以选择所有概率超过某个阈值的主题。你需要通过实验来确定这个阈值。

默认模型有一个固定的类别列表,但这份指南将引导你设置自定义类别。


如果你愿意考虑Google Cloud之外的选项,可能会更容易找到文本分类的指南。spaCy有一份优秀的指南,你可以用它快速上手。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注