R中层次聚类图（树状图）中标签未显示

我想使用R的排列分布聚类包（https://cran.r-project.org/web/packages/pdc/pdc.pdf）进行多变量时间序列聚类。在使用pdclust方法（URL PDF的第11页）进行层次聚类后，我使用plot方法（同样是第11页）绘制了树状图。共有60个样本。因此，在图中（层次聚类图），有60个时间序列，但它们没有标签。当我尝试指定一个标签向量而不是使用labels = NULL时，我总是得到这个错误：“Error in graphics:::plotHclust(n1, merge, height, order(x$order), hang, : invalid dendrogram input”。任何帮助都将不胜感激。以下是我的代码：

data1  <- read.csv(file="file_PID_1_1Apr_00-03.csv",head=FALSE,sep=",")data2  <- read.csv(file="file_PID_2_1Apr_00-03.csv",head=FALSE,sep=",")data3  <- read.csv(file="file_PID_3_1Apr_00-03.csv",head=FALSE,sep=",")data4  <- read.csv(file="file_PID_4_1Apr_00-03.csv",head=FALSE,sep=",")data5  <- read.csv(file="file_PID_5_1Apr_00-03.csv",head=FALSE,sep=",")data6  <- read.csv(file="file_PID_6_1Apr_00-03.csv",head=FALSE,sep=",")data7  <- read.csv(file="file_PID_7_1Apr_00-03.csv",head=FALSE,sep=",")data8  <- read.csv(file="file_PID_8_1Apr_00-03.csv",head=FALSE,sep=",")data9  <- read.csv(file="file_PID_1_1Apr_03-06.csv",head=FALSE,sep=",")data10 <- read.csv(file="file_PID_2_1Apr_03-06.csv",head=FALSE,sep=",")data11 <- read.csv(file="file_PID_3_1Apr_03-06.csv",head=FALSE,sep=",")data12 <- read.csv(file="file_PID_4_1Apr_03-06.csv",head=FALSE,sep=",")data13 <- read.csv(file="file_PID_5_1Apr_03-06.csv",head=FALSE,sep=",")data14 <- read.csv(file="file_PID_6_1Apr_03-06.csv",head=FALSE,sep=",")data15 <- read.csv(file="file_PID_7_1Apr_03-06.csv",head=FALSE,sep=",")data16 <- read.csv(file="file_PID_8_1Apr_03-06.csv",head=FALSE,sep=",")data17 <- read.csv(file="file_PID_1_1Apr_06-09.csv",head=FALSE,sep=",")data18 <- read.csv(file="file_PID_2_1Apr_06-09.csv",head=FALSE,sep=",")data19 <- read.csv(file="file_PID_3_1Apr_06-09.csv",head=FALSE,sep=",")data20 <- read.csv(file="file_PID_4_1Apr_06-09.csv",head=FALSE,sep=",")data21 <- read.csv(file="file_PID_5_1Apr_06-09.csv",head=FALSE,sep=",")data22 <- read.csv(file="file_PID_6_1Apr_06-09.csv",head=FALSE,sep=",")data23 <- read.csv(file="file_PID_7_1Apr_06-09.csv",head=FALSE,sep=",")data24 <- read.csv(file="file_PID_8_1Apr_06-09.csv",head=FALSE,sep=",")data25 <- read.csv(file="file_PID_1_1Apr_09-12.csv",head=FALSE,sep=",")data26 <- read.csv(file="file_PID_2_1Apr_09-12.csv",head=FALSE,sep=",")data27 <- read.csv(file="file_PID_3_1Apr_09-12.csv",head=FALSE,sep=",")data28 <- read.csv(file="file_PID_4_1Apr_09-12.csv",head=FALSE,sep=",")data29 <- read.csv(file="file_PID_5_1Apr_09-12.csv",head=FALSE,sep=",")data30 <- read.csv(file="file_PID_6_1Apr_09-12.csv",head=FALSE,sep=",")data31 <- read.csv(file="file_PID_7_1Apr_09-12.csv",head=FALSE,sep=",")data32 <- read.csv(file="file_PID_8_1Apr_09-12.csv",head=FALSE,sep=",")data33 <- read.csv(file="file_PID_1_1Apr_12-15.csv",head=FALSE,sep=",")data34 <- read.csv(file="file_PID_2_1Apr_12-15.csv",head=FALSE,sep=",")data35 <- read.csv(file="file_PID_3_1Apr_12-15.csv",head=FALSE,sep=",")data36 <- read.csv(file="file_PID_4_1Apr_12-15.csv",head=FALSE,sep=",")data37 <- read.csv(file="file_PID_5_1Apr_12-15.csv",head=FALSE,sep=",")data38 <- read.csv(file="file_PID_6_1Apr_12-15.csv",head=FALSE,sep=",")data39 <- read.csv(file="file_PID_7_1Apr_12-15.csv",head=FALSE,sep=",")data40 <- read.csv(file="file_PID_8_1Apr_12-15.csv",head=FALSE,sep=",")data41 <- read.csv(file="file_PID_2_1Apr_15-18.csv",head=FALSE,sep=",")data42 <- read.csv(file="file_PID_3_1Apr_15-18.csv",head=FALSE,sep=",")data43 <- read.csv(file="file_PID_4_1Apr_15-18.csv",head=FALSE,sep=",")data44 <- read.csv(file="file_PID_6_1Apr_15-18.csv",head=FALSE,sep=",")data45 <- read.csv(file="file_PID_7_1Apr_15-18.csv",head=FALSE,sep=",")data46 <- read.csv(file="file_PID_8_1Apr_15-18.csv",head=FALSE,sep=",")data47 <- read.csv(file="file_PID_1_1Apr_18-21.csv",head=FALSE,sep=",")data48 <- read.csv(file="file_PID_2_1Apr_18-21.csv",head=FALSE,sep=",")data49 <- read.csv(file="file_PID_3_1Apr_18-21.csv",head=FALSE,sep=",")data50 <- read.csv(file="file_PID_4_1Apr_18-21.csv",head=FALSE,sep=",")data51 <- read.csv(file="file_PID_6_1Apr_18-21.csv",head=FALSE,sep=",")data52 <- read.csv(file="file_PID_7_1Apr_18-21.csv",head=FALSE,sep=",")data53 <- read.csv(file="file_PID_8_1Apr_18-21.csv",head=FALSE,sep=",")data54 <- read.csv(file="file_PID_1_1Apr_21-24.csv",head=FALSE,sep=",")data55 <- read.csv(file="file_PID_2_1Apr_21-24.csv",head=FALSE,sep=",")data56 <- read.csv(file="file_PID_3_1Apr_21-24.csv",head=FALSE,sep=",")data57 <- read.csv(file="file_PID_4_1Apr_21-24.csv",head=FALSE,sep=",")data58 <- read.csv(file="file_PID_6_1Apr_21-24.csv",head=FALSE,sep=",")data59 <- read.csv(file="file_PID_7_1Apr_21-24.csv",head=FALSE,sep=",")data60 <- read.csv(file="file_PID_8_1Apr_21-24.csv",head=FALSE,sep=",")list <- array(0,dim=c(720,60,4))myfunc <- function(j,i,k){    if (j == 1) return (data1[i,k])     else if (j==2) return (data2[i,k])    else if (j==3) return (data17[i,k])    else if (j==4) return (data9[i,k])    else if (j==5) return (data5[i,k])    else if (j==6) return (data6[i,k])    else if (j==7) return (data7[i,k])    else if (j==8) return (data8[i,k])    else if (j==9) return (data9[i,k])    else if (j==10) return (data10[i,k])    else if (j==11) return (data11[i,k])    else if (j==12) return (data12[i,k])    else if (j==13) return (data13[i,k])    else if (j==14) return (data14[i,k])    else if (j==15) return (data15[i,k])    else if (j==16) return (data16[i,k])    else if (j==17) return (data17[i,k])    else if (j==18) return (data18[i,k])    else if (j==19) return (data19[i,k])    else if (j==20) return (data20[i,k])    else if (j==21) return (data21[i,k])    else if (j==22) return (data22[i,k])    else if (j==23) return (data23[i,k])    else if (j==24) return (data24[i,k])    else if (j==25) return (data25[i,k])    else if (j==26) return (data26[i,k])    else if (j==27) return (data27[i,k])    else if (j==28) return (data28[i,k])    else if (j==29) return (data29[i,k])    else if (j==30) return (data30[i,k])    else if (j==31) return (data31[i,k])    else if (j==32) return (data32[i,k])    else if (j==33) return (data33[i,k])    else if (j==34) return (data34[i,k])    else if (j==35) return (data35[i,k])    else if (j==36) return (data36[i,k])    else if (j==37) return (data37[i,k])    else if (j==38) return (data38[i,k])    else if (j==39) return (data39[i,k])    else if (j==40) return (data40[i,k])    else if (j==41) return (data41[i,k])    else if (j==42) return (data42[i,k])    else if (j==43) return (data43[i,k])    else if (j==44) return (data44[i,k])    else if (j==45) return (data45[i,k])    else if (j==46) return (data46[i,k])    else if (j==47) return (data47[i,k])    else if (j==48) return (data48[i,k])    else if (j==49) return (data49[i,k])    else if (j==50) return (data50[i,k])    else if (j==51) return (data51[i,k])    else if (j==52) return (data52[i,k])    else if (j==53) return (data53[i,k])    else if (j==54) return (data54[i,k])    else if (j==55) return (data55[i,k])    else if (j==56) return (data56[i,k])    else if (j==57) return (data57[i,k])    else if (j==58) return (data58[i,k])    else if (j==59) return (data59[i,k])    else if (j==60) return (data60[i,k])}list <- array(0,dim=c(720,60,4))for(i in 1:720){    for (j in 1:60){        list[i,j,1] <- myfunc(j,i,6)        list[i,j,2] <- myfunc(j,i,7)        list[i,j,3] <- myfunc(j,i,8)        list[i,j,4] <- myfunc(j,i,9)    }}library("pdc")clustering <- pdclust(list)plot(clustering, labels= NULL, type="rectangle", timeseries.as.labels = T, p.values=T)

回答：

我创建了一个简化的版本的代码，可以在没有数据文件的情况下运行，以便更容易讨论您的问题。在这里，我创建了60个时间序列，每个有4个维度和720个时间点（就像您做的那样）。只是我模拟了一半的试验来自随机正态分布，另一半来自带有叠加随机正态分布的线性趋势。因此，它们应该可以明显分为两组以供pdc使用。以下是代码：

require("pdc")# 通过设置随机种子使其可复制set.seed(7823)# 60个时间序列，每个有4个维度和720个时间点# 其中一半是随机均匀分布，另一半是随机均匀分布和线性增加的混合list <- array(0,dim=c(720,60,4))for (i in 1:30) {  for (j in 1:4) {    list[,i,j] <- rnorm(n = 720)    list[,i+30,j] <- rnorm(n=720)+1:720  }}cols <- c(rep("red",30),rep("blue",30))labels <- c(rep("normal",30),rep("normal+trend",30))# 运行聚类并用红色和蓝色标记原始组clustering <- pdclust(list)pdf("pdcplot.pdf")plot(clustering, labels= labels, type="rectangle", cols=cols, cex=0.5)dev.off()

我没有遇到绘制标签的问题。我添加了“cex=0.5”来减小图中的字体大小。此外，我删除了“timeseries.as.labels = T”，因为当您指定标签时，这会被覆盖。以下是我的图表（带有标签）的样子：

带标签的模拟数据聚类

只有当我指定的标签数量与时间序列数量不匹配时，我才能重现您报告的错误。您可能需要再次检查标签向量的大小（例如，length(labels)==60）。

学技术

R中层次聚类图（树状图）中标签未显示

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复