我有两组数据集,想使用KNIME对这些数据集进行聚类分析。
完成聚类后,我希望对两种不同的聚类算法进行性能比较。
关于聚类算法的性能分析,这是否应该衡量时间(算法的时间复杂度和执行数据聚类所需的时间等)还是聚类输出的有效性?(或者两者兼而有之)
还有没有其他角度可以用来评估聚类算法的性能(或缺乏性能)?
非常感谢,
- T
回答:
这很大程度上取决于你可用的数据类型。
衡量性能的一个常见方法是参照现有的(“外部”)标签(尽管这对于分类比聚类更有意义)。你可以使用大约二十多种措施来进行这种评估。
在使用“内部”质量衡量标准时,请确保它与算法无关。例如,k-means优化了这种衡量标准,在使用这种标准进行评估时总是表现最佳。