时间序列聚类与动态时间规整距离（DTW）结合使用dtwclust

我正在尝试使用dtwclust包进行基于动态时间规整距离（DTW）的时间序列聚类。

我使用了这个函数，

dtwclust(data = NULL, type = "partitional", k = 2L, method = "average",distance = "dtw", centroid = "pam", preproc = NULL, dc = NULL,control = NULL, seed = NULL, distmat = NULL, ...)

我将数据保存为一个列表，它们的长度不同。就像下面的例子一样，这是一个时间序列。

$a[1]  0  0  0  0  2  3  6  7  8  9 11 13$b[1]  0  1  1  2  4  7  8 11 13 15 17 19 22 25 28 31 34 35$c[1]  1  2  4  4  4  4  4  4  4  4  5  5  5  5  5  5  5  6  6  6  6  7  7  8  8  9 10 10 12 14 15 17 19$d[1] 0 0 0 0 0 1 2 4 4 4$e[1]  0  1  1  3  5  6  9 12 14 17 19 20 22 24 28 31 32 34

现在，我的疑问是

(1)我只能为距离选择dtw、dtw2或sbd，为中心点选择dba、shape或pam（因为列表长度不同）。但是，我不知道哪种距离和中心点是正确的选择。

(2)我已经绘制了一些图表，但我不知道如何选择正确且合理的图表。

k = 6, distance = dtw, centroid = dba：

k = 4, distance = dtw, centroid = dba（聚类中心看起来有点奇怪？）

我已经尝试了所有组合，k从4到13…但我不知道如何选择正确的组合…

回答：

你不应该“选择”参数，而是应该评估结果。因此，你需要选择一个评估聚类的标准。你可以改变参数如距离和k，然后使用损失函数来评估聚类。一般来说，聚类评估有两种可能性：

外部评估：

你可以使用标签（这些标签在聚类过程中未使用，因此被视为外部）来计算准确率，形式为假阳性、真阳性等，最终会引导你到AUC测量。

看起来你的数据没有标签，因此你无法计算任何准确率，这本来是最简单的办法。

内部评估：

或者，你可以尝试最大化聚类内相似性（一个聚类成员与同一聚类中所有其他成员的平均距离）和最小化聚类间相似性（一个聚类成员与其聚类外所有元素的平均距离）。

http://www.ims.uni-stuttgart.de/institut/mitarbeiter/schulte/theses/phd/algorithm.pdf

学技术

时间序列聚类与动态时间规整距离（DTW）结合使用dtwclust

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复