在R语言的pvclust
包中,有一个pvclust()
函数。在函数帮助文件中提供的示例中,有如下函数:
boston.pp <- pvpick(boston.pv)
这个函数应该会打印出具有高p值的聚类。该函数的输出是:
$clusters$clusters[[1]][1] "rm" "medv"$clusters[[2]][1] "zn" "dis"$clusters[[3]][1] "crim" "indus" "nox" "age" "rad" "tax" "ptratio" "lstat" $edges[1] 3 5 9
我很难理解这个输出的含义,特别是因为我在聚类分析方面的技术背景非常有限。特别是我不理解每个聚类下面的名称向量的含义。有人能为我解释一下吗?谢谢!
回答:
https://cran.r-project.org/web/packages/pvclust/pvclust.pdf描述了pvclust:
对于表示为(n x p)矩阵或数据框的数据,我们假设数据是p个对象的n个观测值,这些对象将被聚类。第i行的向量对应于这些对象的第i个观测值,第j列的向量对应于第j个对象的n个样本
pvpick的输出:
cluster – 一个字符字符串向量的列表。每个向量对应于每个聚类中对象的名称。
你有没有绘制pvclust输出的树状图?pvpick的clusters
输出只是列出了一些聚类中的内部点(pvclust将boston数据集中的每一列视为一个点),如果你绘制树状图,你会在其中看到这些点。