我拥有数百万篇短文档(最多 30 个词),需要将它们划分到几个已知的类别中。可能一篇文档符合多个类别(虽然很少见,但有可能)。也可能一篇文档不符合任何类别(也很少见)。我还拥有数百万篇已经分类的文档。我应该使用什么算法来完成这项工作?我不需要它运行速度快。我需要确保该算法尽可能地正确分类。
我应该使用什么算法?在 C# 中有这种算法的实现吗?
感谢您的帮助!
回答:
可以看看词频-逆文档频率(TF-IDF) 以及余弦相似度,找到重要的词语来创建类别,并基于相似度将文档分配到类别中。
编辑:
这里有一个例子:here