Home IT技术为什么在机器学习中的逆文档频率（IDF）中会使用对数项？我们也可以不使用对数，那么这里使用对数的真正用途是什么？

为什么在机器学习中的逆文档频率（IDF）中会使用对数项？我们也可以不使用对数，那么这里使用对数的真正用途是什么？

IT技术 xiaolong · 2025年5月24日 · 0 Comment

我也可以不使用对数来实现IDF，使用对数在IDF中的意义是什么？

例如 -: idf = log(文档总数/包含该词的文档数)

但为什么我们不能使用 idf = (文档总数/包含该词的文档数)

回答：

这是因为IDF将与词频（TF）相乘。对于非常常见的词，如果不使用对数，IDF很可能等于1，因此即使是这些常见词也会比实际罕见且有用的词更重。使用log后，对于最常见的词，IDF可以变为0，因此它们的有效tf-idf也变为0，这样就可以忽略它们了。

algorithm machine-learning

发表回复取消回复