收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于非负矩阵分解的时序数据聚类方法

秦臻  
【摘要】:伴随着信息工程和现代社会的迅速发展,出现了越来越多的以时间和空间为维度的数据,即时序数据。然而,时间序列数据和以往的静态数据有巨大的不同。首先它是增量型数据,时序数据往往是动态的、增量到达的,包括数据对象的增加和每个数据对象在时序上的延长。同时数据具有异构特征,例如文本、图像、关系和时间等,这些特征的数值可能在不同的量纲上,也可能有的是数值类型,有的是类别型,在聚类过程中,不能简单的相加来融合这些特征。最后,大规模数据问题,由于时序数据的规模往往是巨大的,传统的算法无法满足用户所需要的时间响应需求。现在已有的各种方法已经发展到可以针对不同类型的时间序列数据进行聚类。因为时序数据不同于传统数据的特点,使得传统的聚类方法在时序数据上面的准确率并不高。即使是算法的准确率得以保证,但是由于时间序列的高维性,使得计算的时间呈指数级递增。基于以上背景以及当前时序数据聚类所面临的问题,本文提出基于非负矩阵分解的时序数据聚类方法。通过非负矩阵分解可以描述局部信息的刻画能力来表征时序数据所含有的信息。因为非负矩阵分解独特的特征,即和其他子空间学习算法相比,其在分解过程中保留了数据局部信息,而不是全局信息。所以在本文中,采用非负矩阵分解对时间序列数据进行表示和描述,然后同时进行三个方面的改进。针对时序数据的非负矩阵分解具有收敛慢的特点,所以改进的第一点是将系数矩阵进行稀疏化,从而加快收敛过程同时达到去噪的目的;第二是在目标函数中加入一个基矩阵平滑性约束项,采用非负矩阵分解的时序数据聚类方法也就是使用新的表征方式去表达时序数据,基矩阵的列就是表示样本的模型,所以根据时序数据的连续性,要求基矩阵的列向量也具有连续性。第三是对基矩阵的列向量做差异性计算,因为基矩阵相当于一组模型的集合,他们之间具有相关性,希望列向量之间的冗余较小,即他们的差异性越大越好。实验结果验证了改进的非负矩阵分解算法在部分时间序列数据聚类上面准确率有所提高。


知网文化
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978