假设我有项目 i1, …, iN
我想以这样的方式对它们进行聚类:
- 如果我多次运行聚类算法,项目 iJ 和 iK 最终落在同一聚类的概率很高。
- 聚类的数量和聚类成员关系在不同的聚类种子下相对稳定
有哪些已知的算法可以实现这一点?
澄清说明:
假设我想要3个聚类,并且假设:
- 在现实-1 中,我以 i1, i33, i89 作为聚类 c1, c2, c3 的种子
- 在现实-2 中,我以 i44, i55, i77 作为聚类 c1, c2, c3 的种子
我希望在两种现实中的结果聚类大体相似
回答:
一种常见的策略是通过自举法(bootstrap)来使算法对初始化的鲁棒性增强,参见例如这篇论文。
另一种选择是在聚类之前对数据进行排序,并使用严格的确定性算法。