Home IT技术在进行交叉验证时，我是否使用训练集的相同idf？

在进行交叉验证时，我是否使用训练集的相同idf？

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我正在尝试使用向量空间模型在SVM Light中构建一个SVM分类器。我有1000份文档和一个用于将每份文档向量化的术语词典。在这1000份文档中，有600份将用于我的训练集，其余400份将平均分配（各200份）给我的交叉验证集和测试集。

假设我使用600份训练集（使用tf-idf进行向量化）来训练我的SVM分类器，以生成一个用于分类的模型。

当我将模型应用于交叉验证集时，我应该使用相同的idf（因为模型对应于我的训练集），还是需要基于交叉验证集计算新的idf？另外，如果我将模型应用于单个文档，我该如何应用idf，因为这组数据只包含1份文档？

回答：

你在训练文档中构建idf，并在每次有新的测试文档时使用它。对于每份测试文档，你可以使用查询中每个术语的idf创建一个词列表。如果某个词未包含在idf中，查询将返回0。分类是基于已建立的idf获得的。

cross-validation libsvm machine-learning tf-idf

发表回复取消回复