我有一个分类数据集,我正在对其进行谱聚类。但是我得到的输出并不是很好。我选择了对应于最大特征值的特征向量作为k-means的中心点。
请查看我遵循的过程如下:
1. 使用Jaccard系数创建一个对称的相似性矩阵(m*m)。例如,对于一个数据集,a,b,c,d和a,b,x,y,我计算的相似性矩阵看起来像:|1 0.33| |0.33 1 |2. 计算对应于最大特征值的前k个特征向量,其中k是聚类的数量。3. 归一化对称的相似性矩阵4. 使用特征向量作为k-means的初始中心点,对归一化的相似性矩阵进行聚类。
我的问题是:
计算Jaccard相似性矩阵是否是谱聚类的正确选择。选择特征向量作为谱聚类的聚类中心点是否正确,因为对于分类数据集我没有看到其他选项。我遵循的程序是否有任何错误。
回答:
据我所知,你混合和打乱了多种方法。难怪它不起作用…
- 你可以简单地使用Jaccard距离(Jaccard相似性的简单倒数)+ 层次聚类
- 你可以使用MDS来投影你的数据,然后进行k-means(可能是你试图做的事情)
- 亲和传播等方法也值得一试