如何使用无监督形状对时间序列进行聚类的资料说明

资料大小: 0.96 MB

所需积分: 1

下载次数:

用户评论: 0条评论,查看

上传日期: 2019-05-15

上 传 者: sunbinfeng他上传的所有资料

资料介绍

标签:标签(21)数据挖掘(176)函数(681)

  时间序列聚类已成为近十年来越来越重要的研究课题。大多数现有的时间序列聚类方法依赖于使用欧几里得距离或动态时间扭曲距离作为距离度量的整个原始数据计算出的距离。然而,存在显著噪声、辍学或外来数据会极大地限制该领域中聚类的准确性。此外,对于大多数现实世界问题,我们不能期望同一类中的对象长度相等。因此,大多数关于时间序列聚类的工作只考虑个体时间序列“行为”的聚类,例如个体心跳或个体步态周期,并以某种方式设计时间序列,使其长度相等。然而,以这种方式设计数据往往比集群本身更困难。

  在这项工作中,我们表明,通过仅使用一些局部模式并故意忽略其余的数据,我们可以缓解上述问题,并将不同长度的时间序列群集起来,即将一个心跳与多个心跳群集起来。为了实现这一点,我们利用并扩展了最近引入的时间序列数据挖掘概念shapelets。与现有的工作不同,我们的工作首次证明了shapelet可以从未标记的时间序列中学习这一非必然的事实。我们在不同领域进行了广泛的实证评估,结果表明我们的方法比现有的方法更准确。此外,除了准确的聚类结果外,我们的工作还可以对其应用领域进行深入了解。

  时间序列分析是航天、金融、商业、气象学、医学、运动捕捉等许多研究领域的一个重要课题,然而,大多数时间序列分析的研究都受到昂贵的标记数据需求的限制。这导致人们对聚类时间序列数据越来越感兴趣,根据定义,这些数据不需要访问带标签的数据。

  Keogh和Kasetty于年进行的一项长达十年的经验比较揭示了一个令人惊讶的事实,即简单的欧几里得距离度量与其他更复杂的距离度量具有高度的竞争性,而最近的研究证实了这一点。然而,要定义欧几里得距离,时间序列必须是等长的。动态时间扭曲(DTW)既能解决这一问题,又能解决包含异相相似度的时间序列聚类困难的问题,如所示。

  然而,在这项工作中,我们认为欧几里得距离或DTW用于聚类的明显效用可能来自于对UCR时间序列存档的过度依赖,用于测试聚类算法。问题是,这个档案中的数据已经被手工编辑,以便具有相等的长度和(近似的)对齐方式。然而,以这种格式设计数据的任务几乎肯定比为数据添加标签(即集群本身)的任务更困难。

  作为一个具体的例子,考虑到著名的枪点数据集,它已经在成百上千的研究中被用于聚类和分类,在每种情况下都报告了近乎完美的准确度。这个数据集是通过声音提示设计的,这两种提示都向演员发出信号,并开始/停止录像。图1显示了来自归档文件的两个数据示例(只是用红色/粗体突出显示的部分);但是,通过检查原始归档文件,我们能够显示UCR归档文件中使用的3秒继续/跟踪数据。

用户评论

查看全部 条评论

发表评论请先 , 还没有账号?免费注册

发表评论

用户评论
技术交流、我要发言! 发表评论可获取积分! 请遵守相关规定。
上传电子资料