使用配对计数F-measure评估层次聚类

情况如下：

我有一组文档数据集，我根据它们的主题手动分配到了一个（基础）聚类中。随后，我使用了层次聚合聚类（HAC）对同一数据集进行了自动聚类。现在，我正在尝试使用配对计数F-measure（如Darius Pfitzner、Richard Leibbrandt和David Powers在《Characterization and evaluation of similarity measures for pairs of clusterings》一文中所描述）来评估HAC聚类。

然而，我面临的问题是，我的 manual clustering 产生了平面聚类（因此聚类之间没有任何关系），而HAC找到的聚类是层次性的。因此，当查看树状图时，根据你选择的深度（水平线），你会有不同数量的聚类（在深度0（根节点）时，你只有1个聚类；在最大深度时，你的聚类数量等于数据集中的元素数量）。

所以，我的疑问是：

我是否需要选择一个深度（以便我有一组固定的聚类）来使用配对计数F-measure（还是我遗漏了什么？）。
如果需要，我用什么标准来确定这个深度？

回答：

配对计数度量是为无重叠的平面分区设计的。

如果你尝试为重叠或层次结果计算它们，你很容易得到超出[0;1]范围的值；因此，这些方法显然不适用。

所以，是的，你必须以某种方式切割树（例如，在特定高度切割；或为了达到特定数量的聚类）才能使用这种评估度量。

关于如何从层次聚类结果中提取平面分区的最新建议（无论是来自链接聚类、OPTICS还是HDBSCAN）可以在这里找到：

从层次结构中半监督和无监督最优提取聚类的框架
R. J. G. B. Campello, D. Moulavi, A. Zimek, J. Sander
Data Mining and Knowledge Discovery, 27(3): 344–371, 2013.

但我还没有使用过这个方法。不过听起来非常有用，并且在我的待读列表中。

学技术

使用配对计数F-measure评估层次聚类

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复