应该实现哪种机器学习算法来检测文档类型？

我们有一个需求，即从客户那里获取不同类型的文档，如学生入学文件、成绩单等。因此，我们希望创建一个算法来识别文档类型。我们选择了一些特定的关键词来识别文档类型，例如，如果入学文件包含关键词如fee、admission等。而marksheet文档的关键词如marks、grade等。因此，我们可以通过比较关键词的频率来预测文档类型。

对于上述需求，应该实现哪种算法？我原本计划实现多项式朴素贝叶斯算法，但我的数据无法适应该算法。

顺便提一下，我正在使用Python的sklearn模块。

请问有人能告诉我哪种算法适合上述需求吗？如果可能的话，能否提供一个带代码的示例，以便我能更容易找到解决方案？

回答：

您正在寻找主题建模解决方案，有很多方法可以解决这个问题。通过Python和scikit-learn，我推荐您查看这篇文章

学技术

应该实现哪种机器学习算法来检测文档类型？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复