Home IT技术在tf-idf中，文档和语料库是什么？

在tf-idf中，文档和语料库是什么？

IT技术 xiaolong · 2025年5月24日 · 0 Comment

tf-idf = 词频 * 逆文档频率

词频被定义为一个词在文档中的出现次数。

逆文档频率被定义为总文档数除以包含该词的文档数。

上述公式可能会有所不同，但这就是大致情况。现在，假设我有一个包含100万个句子的数据集：

1) 数据集中的一个条目是否算作一个文档？

2) 整个数据集是否就是语料库？

这个问题与[1]有些相关，但答案并没有帮助我理解在实际数据集中这些概念的含义。

谢谢你。

[1] 在NLP上下文中“文档”是什么意思？

回答：

在你的特定情况下，如果这些句子之间没有关联，可以将每个句子称为“文档”。

更详细地说，TF意味着一个词在当前样本中是频繁出现的（为了避免使用“文档”一词）。DF表明一个词在每个样本中都是频繁出现的。那么，TF/DF的商对于在整个集合中较为罕见的词会返回一个较高的数值——表明这些词是重要的——而对于常见的词则会返回一个较低的数值。

machine-learning nlp tf-idf tfidfvectorizer vectorization

发表回复取消回复