使用分类算法(例如朴素贝叶斯或SVM),以及StringToWordVector,是否可以使用TF/IDF,并计算当前类别中所有文档的术语频率,而不是仅查看单个文档?
让我解释一下,我希望计算能够给那些在特定类别中非常频繁(而不仅仅是在特定文档中)的词汇赋予高分,但在整个语料库中这些词汇并不常见。
这是开箱即用的功能吗,还是需要一些额外的开发?
谢谢:)
回答:
我认为你在这里搞混了——你所要求的本质上是该类别文档中该术语的特征权重。这是学习算法旨在优化的内容。只需关注文档的有用表示,这必须对它们所属的类别保持不变(因为你不会知道未见过的测试文档的类别是什么)。