使用配对计数F-measure评估层次聚类

情况如下:

我有一组文档数据集,我根据它们的主题手动分配到了一个(基础)聚类中。随后,我使用了层次聚合聚类(HAC)对同一数据集进行了自动聚类。现在,我正在尝试使用配对计数F-measure(如Darius Pfitzner、Richard Leibbrandt和David Powers在《Characterization and evaluation of similarity measures for pairs of clusterings》一文中所描述)来评估HAC聚类。

然而,我面临的问题是,我的 manual clustering 产生了平面聚类(因此聚类之间没有任何关系),而HAC找到的聚类是层次性的。因此,当查看树状图时,根据你选择的深度(水平线),你会有不同数量的聚类(在深度0(根节点)时,你只有1个聚类;在最大深度时,你的聚类数量等于数据集中的元素数量)。

所以,我的疑问是:

  • 我是否需要选择一个深度(以便我有一组固定的聚类)来使用配对计数F-measure(还是我遗漏了什么?)。
  • 如果需要,我用什么标准来确定这个深度?

回答:

配对计数度量是为无重叠的平面分区设计的。

如果你尝试为重叠或层次结果计算它们,你很容易得到超出[0;1]范围的值;因此,这些方法显然不适用。

所以,是的,你必须以某种方式切割树(例如,在特定高度切割;或为了达到特定数量的聚类)才能使用这种评估度量。

关于如何从层次聚类结果中提取平面分区的最新建议(无论是来自链接聚类、OPTICS还是HDBSCAN)可以在这里找到:

从层次结构中半监督和无监督最优提取聚类的框架
R. J. G. B. Campello, D. Moulavi, A. Zimek, J. Sander
Data Mining and Knowledge Discovery, 27(3): 344–371, 2013.

但我还没有使用过这个方法。不过听起来非常有用,并且在我的待读列表中。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注