我想比较以下基于键值百分比的分布。
dist1 = 200 – 0.1, 201-0.1, 500-0.8
dist2 = 200 – 0.15, 201 – 0.05, 500 – 0.8
dist3 = 200 – 0.1, 201-0.05, 500 – 0.85
dist1 是我的原始分布。我想将它与 dist2 和 dist3 进行比较。当我使用类似 KL 散度的工具时,我得到 KL(dist2,dist1) > KL(dist3,dist1),但在我的当前使用场景中情况恰恰相反,我想要一个度量标准来表明 dist2 比 dist3 更接近 dist1,因为 dist2 与 dist1 之间仅在较接近的桶(即 200,201)之间有变化,而在 dist3 中则有从 201 桶移动到 500 桶的情况。
在这种情况下,均值可能会起作用,但我想要一个更严谨的方法来比较这些分布,以捕捉所有变化。
谢谢
回答:
你可以考虑使用地球移动距离。这种方法通过将概率质量视为一堆泥土,然后考虑将一个分布转换为另一个分布需要移动多少泥土来测量两个分布之间的差异。移动泥土的距离越远,所需的工作就越多,而 KL 散度则对概率质量移动的距离不敏感。