我也可以不使用对数来实现IDF,使用对数在IDF中的意义是什么?
例如 -: idf = log(文档总数/包含该词的文档数)
但为什么我们不能使用 idf = (文档总数/包含该词的文档数)
回答:
这是因为IDF将与词频(TF)相乘。对于非常常见的词,如果不使用对数,IDF很可能等于1,因此即使是这些常见词也会比实际罕见且有用的词更重。使用log
后,对于最常见的词,IDF可以变为0,因此它们的有效tf-idf也变为0,这样就可以忽略它们了。
我也可以不使用对数来实现IDF,使用对数在IDF中的意义是什么?
例如 -: idf = log(文档总数/包含该词的文档数)
但为什么我们不能使用 idf = (文档总数/包含该词的文档数)
回答:
这是因为IDF将与词频(TF)相乘。对于非常常见的词,如果不使用对数,IDF很可能等于1,因此即使是这些常见词也会比实际罕见且有用的词更重。使用log
后,对于最常见的词,IDF可以变为0,因此它们的有效tf-idf也变为0,这样就可以忽略它们了。