我对使用像Google自然语言API这样的服务来将随机用户问题分类到预设的主题列表中很感兴趣。我拥有高级编程经验,希望以Google的服务为基础,如果有必要,围绕它构建一个代码库来实现我们的目标。一个示例用例将是:
硬编码的预设主题列表:
棒球
橄榄球
足球
用户样本问题和预期结果:
我如何烹饪意大利面?结果:无结果
什么是裁判?结果:棒球/橄榄球/足球
什么是本垒打?结果:棒球
1) 是否已经存在可以将随机用户文本分类到预设主题列表中的类似服务?
2) 如果没有,是否存在已经展示如何实现此功能的编程概念,或者允许我学习相关概念的资源?(我在Google上搜索了,没有找到任何相关内容——可能是我不知道该搜索什么)
3) 如果没有,关于如何实现这一点有什么指导建议吗?
回答:
这听起来像是一个基本的分类问题,或者更具体地说,可能是意图分类。
Google有一份指南,介绍如何创建分类程序。你应该从那里开始。
分类器的输出将为你提供一个带有每个主题概率的主题列表。如果你想允许多个概率,这更难做到正确,你可以选择所有概率超过某个阈值的主题。你需要通过实验来确定这个阈值。
默认模型有一个固定的类别列表,但这份指南将引导你设置自定义类别。
如果你愿意考虑Google Cloud之外的选项,可能会更容易找到文本分类的指南。spaCy有一份优秀的指南,你可以用它快速上手。