情况如下:
我有一组文档数据集,我根据它们的主题手动分配到了一个(基础)聚类中。随后,我使用了层次聚合聚类(HAC)对同一数据集进行了自动聚类。现在,我正在尝试使用配对计数F-measure(如Darius Pfitzner、Richard Leibbrandt和David Powers在《Characterization and evaluation of similarity measures for pairs of clusterings》一文中所描述)来评估HAC聚类。
然而,我面临的问题是,我的 manual clustering 产生了平面聚类(因此聚类之间没有任何关系),而HAC找到的聚类是层次性的。因此,当查看树状图时,根据你选择的深度(水平线),你会有不同数量的聚类(在深度0(根节点)时,你只有1个聚类;在最大深度时,你的聚类数量等于数据集中的元素数量)。
所以,我的疑问是:
- 我是否需要选择一个深度(以便我有一组固定的聚类)来使用配对计数F-measure(还是我遗漏了什么?)。
- 如果需要,我用什么标准来确定这个深度?
回答:
配对计数度量是为无重叠的平面分区设计的。
如果你尝试为重叠或层次结果计算它们,你很容易得到超出[0;1]
范围的值;因此,这些方法显然不适用。
所以,是的,你必须以某种方式切割树(例如,在特定高度切割;或为了达到特定数量的聚类)才能使用这种评估度量。
关于如何从层次聚类结果中提取平面分区的最新建议(无论是来自链接聚类、OPTICS还是HDBSCAN)可以在这里找到:
从层次结构中半监督和无监督最优提取聚类的框架
R. J. G. B. Campello, D. Moulavi, A. Zimek, J. Sander
Data Mining and Knowledge Discovery, 27(3): 344–371, 2013.
但我还没有使用过这个方法。不过听起来非常有用,并且在我的待读列表中。