我正在尝试使用dtwclust
包进行基于动态时间规整距离(DTW)的时间序列聚类。
我使用了这个函数,
dtwclust(data = NULL, type = "partitional", k = 2L, method = "average",distance = "dtw", centroid = "pam", preproc = NULL, dc = NULL,control = NULL, seed = NULL, distmat = NULL, ...)
我将数据保存为一个列表,它们的长度不同。就像下面的例子一样,这是一个时间序列。
$a[1] 0 0 0 0 2 3 6 7 8 9 11 13$b[1] 0 1 1 2 4 7 8 11 13 15 17 19 22 25 28 31 34 35$c[1] 1 2 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 7 7 8 8 9 10 10 12 14 15 17 19$d[1] 0 0 0 0 0 1 2 4 4 4$e[1] 0 1 1 3 5 6 9 12 14 17 19 20 22 24 28 31 32 34
现在,我的疑问是
(1)我只能为距离选择dtw
、dtw2
或sbd
,为中心点选择dba
、shape
或pam
(因为列表长度不同)。但是,我不知道哪种距离和中心点是正确的选择。
(2)我已经绘制了一些图表,但我不知道如何选择正确且合理的图表。
k = 6, distance = dtw, centroid = dba
:
k = 4, distance = dtw, centroid = dba
(聚类中心看起来有点奇怪?)
我已经尝试了所有组合,k从4到13…但我不知道如何选择正确的组合…
回答:
你不应该“选择”参数,而是应该评估结果。因此,你需要选择一个评估聚类的标准。你可以改变参数如距离和k,然后使用损失函数来评估聚类。一般来说,聚类评估有两种可能性:
外部评估:
你可以使用标签(这些标签在聚类过程中未使用,因此被视为外部)来计算准确率,形式为假阳性、真阳性等,最终会引导你到AUC测量。
看起来你的数据没有标签,因此你无法计算任何准确率,这本来是最简单的办法。
内部评估:
或者,你可以尝试最大化聚类内相似性(一个聚类成员与同一聚类中所有其他成员的平均距离)和最小化聚类间相似性(一个聚类成员与其聚类外所有元素的平均距离)。
更多信息可以参考:
http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html
http://www.ims.uni-stuttgart.de/institut/mitarbeiter/schulte/theses/phd/algorithm.pdf