文本分类算法 – 学技术

我拥有数百万篇短文档（最多 30 个词），需要将它们划分到几个已知的类别中。可能一篇文档符合多个类别（虽然很少见，但有可能）。也可能一篇文档不符合任何类别（也很少见）。我还拥有数百万篇已经分类的文档。我应该使用什么算法来完成这项工作？我不需要它运行速度快。我需要确保该算法尽可能地正确分类。
我应该使用什么算法？在 C# 中有这种算法的实现吗？
感谢您的帮助！

回答：

可以看看词频-逆文档频率（TF-IDF）以及余弦相似度，找到重要的词语来创建类别，并基于相似度将文档分配到类别中。

编辑：

这里有一个例子：here

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复