我阅读了关于兰德指数和调整后的兰德指数的维基百科文章。我能理解它们是如何数学计算的,并且可以将兰德指数解释为一致性与不一致性的比率。但我无法对ARI产生同样的直观理解。
这篇博客文章通过考虑重叠的可能性解释了为什么ARI比RI更好。能否通过一个例子或直观的解释说明为什么ARI比RI更好。
回答:
我认为主要的直观点就是你在博客文章中提到的那个,
为什么两个随机集合的RI接近1?原因在于聚类的数量。当聚类数量很多时,两个集合中的一对项目有更高的几率位于不同的聚类中。这在RI中仍然被视为一致事件。
如果一对元素在每个分区中要么都在同一个聚类中,要么都在不同的聚类中,RI就会将其视为“成功”。
这种“成功”的概念可能会受到随机机会的不利影响,只需增加分区中的聚类数量。例如,假设有一个包含100个例子的数据集。分区X将其分成100个不同的子集,每个子集包含1个数据点。分区Y将其分成99个子集,其中98个子集各包含1个数据点,1个子集包含2个数据点。
对于这种情况,常规的RI看起来几乎完美,因为对于随机选择的任意两个点,它们肯定在X中属于两个不同的子集,而它们不在Y中属于两个不同子集的唯一可能性是不太可能从包含两个项目的特殊第99个子集中抽取这两项。因此,RI将非常接近1(如果我们使数据集大于100,我们可以使其任意接近1)。
但对于ARI,根据定义, contingence表中的所有n_ij
项都将是1或0,这意味着分子必须是负数,表明聚类相似性不好(这基本上是由这些分区仅携带Y中包含两个数据点的那个子集的信息所驱动的…所以如果X不能重现这一点,它在某种意义上在重现Y指示的关系方面表现得非常差)。
你可以通过将X视为50个不同的两元素对集合,将Y视为不同的50个两元素对集合的集合,使这个思想实验更加复杂。然后,RI可以通过随机机会看起来很好,因为大多数时候元素会随机地都不属于同一个两元素子集。对于实际上在X或Y中属于一起的那些对(100个可能的对),它只会受到惩罚,而对于剩下的(100 choose 2) - 100
对,RI会将它们标记为在X和Y中成功地放入不同的组中。同样,只是使数据集更大就会越来越提高RI。