使用配对计数F-measure评估层次聚类

情况如下:

我有一组文档数据集,我根据它们的主题手动分配到了一个(基础)聚类中。随后,我使用了层次聚合聚类(HAC)对同一数据集进行了自动聚类。现在,我正在尝试使用配对计数F-measure(如Darius Pfitzner、Richard Leibbrandt和David Powers在《Characterization and evaluation of similarity measures for pairs of clusterings》一文中所描述)来评估HAC聚类。

然而,我面临的问题是,我的 manual clustering 产生了平面聚类(因此聚类之间没有任何关系),而HAC找到的聚类是层次性的。因此,当查看树状图时,根据你选择的深度(水平线),你会有不同数量的聚类(在深度0(根节点)时,你只有1个聚类;在最大深度时,你的聚类数量等于数据集中的元素数量)。

所以,我的疑问是:

  • 我是否需要选择一个深度(以便我有一组固定的聚类)来使用配对计数F-measure(还是我遗漏了什么?)。
  • 如果需要,我用什么标准来确定这个深度?

回答:

配对计数度量是为无重叠的平面分区设计的。

如果你尝试为重叠或层次结果计算它们,你很容易得到超出[0;1]范围的值;因此,这些方法显然不适用。

所以,是的,你必须以某种方式切割树(例如,在特定高度切割;或为了达到特定数量的聚类)才能使用这种评估度量。

关于如何从层次聚类结果中提取平面分区的最新建议(无论是来自链接聚类、OPTICS还是HDBSCAN)可以在这里找到:

从层次结构中半监督和无监督最优提取聚类的框架
R. J. G. B. Campello, D. Moulavi, A. Zimek, J. Sander
Data Mining and Knowledge Discovery, 27(3): 344–371, 2013.

但我还没有使用过这个方法。不过听起来非常有用,并且在我的待读列表中。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注