Home IT技术 TF/IDF是否可以考虑类别

TF/IDF是否可以考虑类别

IT技术 xiaolong · 2025年4月7日 · 0 Comment

使用分类算法（例如朴素贝叶斯或SVM），以及StringToWordVector，是否可以使用TF/IDF，并计算当前类别中所有文档的术语频率，而不是仅查看单个文档？

让我解释一下，我希望计算能够给那些在特定类别中非常频繁（而不仅仅是在特定文档中）的词汇赋予高分，但在整个语料库中这些词汇并不常见。

这是开箱即用的功能吗，还是需要一些额外的开发？

谢谢:)

回答：

我认为你在这里搞混了——你所要求的本质上是该类别文档中该术语的特征权重。这是学习算法旨在优化的内容。只需关注文档的有用表示，这必须对它们所属的类别保持不变（因为你不会知道未见过的测试文档的类别是什么）。

machine-learning weka

发表回复取消回复