tf-idf = 词频 * 逆文档频率
词频被定义为一个词在文档中的出现次数。
逆文档频率被定义为总文档数除以包含该词的文档数。
上述公式可能会有所不同,但这就是大致情况。现在,假设我有一个包含100万个句子的数据集:
1) 数据集中的一个条目是否算作一个文档?
2) 整个数据集是否就是语料库?
这个问题与[1]有些相关,但答案并没有帮助我理解在实际数据集中这些概念的含义。
谢谢你。
回答:
在你的特定情况下,如果这些句子之间没有关联,可以将每个句子称为“文档”。
更详细地说,TF意味着一个词在当前样本中是频繁出现的(为了避免使用“文档”一词)。DF表明一个词在每个样本中都是频繁出现的。那么,TF/DF的商对于在整个集合中较为罕见的词会返回一个较高的数值——表明这些词是重要的——而对于常见的词则会返回一个较低的数值。