聚类分析用于无监督问题 – 不依赖于邻近度量方法的验证

是否有内部有效性指标/方法可以评估我的算法的质量,这些方法大多不依赖于邻近度量(例如,距离矩阵)?所有传统的度量方法(如:轮廓系数、Dunn指数、N-cut、DB指数等)都依赖于您如何在数据上定义邻近度以及最终的分区,而不是数据本身。


回答:

不存在所谓的“依赖于数据本身”,数据是一个抽象的术语,可以描述一组大象或环同构。为了定义任何指标,您需要使用以下两种方法之一:

  • 在有监督的场景中(当您知道某些对象的类别时,不一定用于训练,但您必须知道它们),您可以使用这些标签来计算不纯度,或任何其他基于分类的得分
  • 在无监督的场景中,您必须使用某种相似性度量,这种度量可以非常随意,可能是某种度量的倒数,但也可能是完全抽象的度量,可能是通过询问一些人“这些元素是否相似?”得出的,可能会包含不可比较的元素(矩阵中的“nans”),可能不是对称的,但某种相似性度量是至关重要的,数据中没有“魔法”般的、“深层”的含义。您可以从一些不同的模型中提取相似性度量(如生成模型、自动编码器等),但这在概念上仍然是相同的,只是您不是手动给出规则,而是手动给出一个提取规则的算法。

总结一下。您无法直接评估聚类本身,您只能评估它在特定任务中的表现如何,这个任务可以是:

  • 某个更大的问题,其中聚类只是其中的一个步骤,您可以将您的聚类方法插入并观察整个系统质量的变化
  • 优化基于类别的标准(有监督)
  • 优化基于相似性/距离的标准(无监督)

没有更多的选项。无监督学习不是一个真实的、定义明确的问题,这只是一种工具,用于简化一些真实问题。因此,您永远无法说“这是一个好的聚类”,您只能说“在假设使用管道X、Y、Z的情况下,这聚类在任务A、B、C中表现良好”。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注