为什么调整后的兰德指数(ARI)比兰德指数(RI)更好,以及如何从公式上直观地理解ARI

我阅读了关于兰德指数调整后的兰德指数的维基百科文章。我能理解它们是如何数学计算的,并且可以将兰德指数解释为一致性与不一致性的比率。但我无法对ARI产生同样的直观理解。

这篇博客文章通过考虑重叠的可能性解释了为什么ARI比RI更好。能否通过一个例子或直观的解释说明为什么ARI比RI更好。


回答:

我认为主要的直观点就是你在博客文章中提到的那个,

为什么两个随机集合的RI接近1?原因在于聚类的数量。当聚类数量很多时,两个集合中的一对项目有更高的几率位于不同的聚类中。这在RI中仍然被视为一致事件。

如果一对元素在每个分区中要么都在同一个聚类中,要么都在不同的聚类中,RI就会将其视为“成功”。

这种“成功”的概念可能会受到随机机会的不利影响,只需增加分区中的聚类数量。例如,假设有一个包含100个例子的数据集。分区X将其分成100个不同的子集,每个子集包含1个数据点。分区Y将其分成99个子集,其中98个子集各包含1个数据点,1个子集包含2个数据点。

对于这种情况,常规的RI看起来几乎完美,因为对于随机选择的任意两个点,它们肯定在X中属于两个不同的子集,而它们不在Y中属于两个不同子集的唯一可能性是不太可能从包含两个项目的特殊第99个子集中抽取这两项。因此,RI将非常接近1(如果我们使数据集大于100,我们可以使其任意接近1)。

但对于ARI,根据定义, contingence表中的所有n_ij项都将是1或0,这意味着分子必须是负数,表明聚类相似性不好(这基本上是由这些分区仅携带Y中包含两个数据点的那个子集的信息所驱动的…所以如果X不能重现这一点,它在某种意义上在重现Y指示的关系方面表现得非常差)。

你可以通过将X视为50个不同的两元素对集合,将Y视为不同的50个两元素对集合的集合,使这个思想实验更加复杂。然后,RI可以通过随机机会看起来很好,因为大多数时候元素会随机地不属于同一个两元素子集。对于实际上在X或Y中属于一起的那些对(100个可能的对),它只会受到惩罚,而对于剩下的(100 choose 2) - 100对,RI会将它们标记为在X和Y中成功地放入不同的组中。同样,只是使数据集更大就会越来越提高RI。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注