我想请问有人能解释一下为什么在计算两个文档之间的K-L散度时会使用gamma和epsilon吗?它们各自的作用是什么?我数学不太好,如果有人能用简单的语言解释给我,那将非常有帮助。
谢谢你的帮助!
回答:
我想你指的是论文Using Kullback-Leibler Distance for Text Categorization中定义的gamma和epsilon值。
epsilon
是一个文档中不存在的术语的概率。它被设定为一个小值而不是0,以避免距离成为无穷大。gamma
是一个归一化系数,用来考虑epsilon
的影响,使得一个类别中术语的概率满足概率的属性(总和为1)。