收藏本站
《北京交通大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

针对大规模时间序列数据的改进聚类算法

杜荣浩  
【摘要】:时间相关的数据在日常生活中普遍存在,数据的安全性也越来越受到人们的重视。在针对时间数据的异常检测系统中,聚类是常用的挖掘方法。但是多数时间序列聚类算法侧重于以批处理的方式检测集群,这种方案会消耗大量存储空间,限制了聚类算法在处理大型时间数据时的性能和扩展能力。针对这一问题,本文提出了一种基于平衡迭代规约层次聚类(BIRCH)的改进算法——Ex-BIRCH算法,以准确地挖掘时间序列中的模式信息。论文的研究工作得到了国家自然科学基金项目(No.61172072、61271308)、北京市自然科学基金项目(No.4112045)和高等学校博士学科点专项科研基金(No.20100009110002)的支持。论文的主要工作包括:首先,本文对现有聚类算法进行了较为详细的分析,指出了时间序列聚类所面临的挑战。接着分析了 BIRCH聚类算法在处理大规模数据时具有的优势。在此基础上提出了一种适用于时间序列的改进聚类算法,并介绍了具体的改进方案:(1)替换了 BIRCH算法中的距离度量。考虑到欧氏距离不能准确衡量时间序列这一事实,Ex-BIRCH算法采用动态时间归整(DTW)作为时间序列的距离度量;(2)更改了 BIRCH算法中的集群质心计算方法。本文对DTW下的质心平均算法(DBA算法)做出调整,提出了一种Ad-DBA算法。Ad-DBA算法可以在数据流环境下计算时间序列的均值。Ex-BIRCH算法使用Ad-DBA算法作为集群质心的计算方法;(3)修改了 BIRCH算法中的集群特征。距离度量和均值计算方法的改变会导致BIRCH算法中原有的特征向量失效。根据DTW算法以及Ad-DBA算法的计算过程,本文提出一种新的集群特征向量替代了原始向量。论文还对Ex-BIRCH算法、BIRCH算法、k-means算法以及BIRCH和k-means的变体算法的准确性和效率进行了评估。计算结果表明,改进算法的聚类准确率,相比于原始BIRCH算法以及BIRCH的变体算法有显著地提高。达到了与全局聚类算法(k-means算法和k-DBA算法)准确率相当的水平。然而,与k-means和k-DBA算法不同的是,Ex-BIRCH算法可以增量地处理连续到来的数据对象。最后,本文在滑动窗口模型的帮助下,将Ex-BIRCH算法部署到仿真环境中进行实现和分析。结果进一步证明改进算法可以在数据流环境下完成序列模式挖掘工作。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 李健;孙广中;许胤龙;;基于时间序列的预测模型应用与异常检测[J];计算机辅助工程;2006年02期
2 左爱文;郭宏武;王保保;;气象时间序列规则发现及其应用[J];陕西气象;2006年06期
3 刘猛洪;汪爱丽;;基于模糊时间序列的短期电力负荷预测[J];电子世界;2013年07期
4 K.D.C.Stoodley,卢润德;非连续含有准周期分量时间序列的实时监测(英文)[J];控制理论与应用;1986年01期
5 吴红花;刘国华;;不确定时间序列的规约方法[J];计算机工程;2012年21期
6 W.Gersch;黄劲涛;;混合自回归动平均时间序列的自回归参数估计[J];水声译丛;1980年03期
7 王立柱;刘晓东;;Granger相关性与时间序列预测[J];控制与决策;2014年04期
8 周巧临;傅彦;;科学数据时间序列的预测方法[J];电子科技大学学报;2007年06期
9 王阅;高学东;;基于重标级差分析的时间序列分割方法[J];计算机工程与应用;2008年29期
10 修春波;;时间序列一步预测方法[J];计算机应用研究;2010年04期
中国重要会议论文全文数据库 前10条
1 周家斌;张海福;杨桂英;;多维多步时间序列预报方法及其应用[A];中国现场统计研究会第九届学术年会论文集[C];1999年
2 马培蓓;纪军;;基于时间序列的航空备件消耗预测[A];中国系统工程学会决策科学专业委员会第六届学术年会论文集[C];2005年
3 卢世坤;李夕海;牛超;陈蛟;;时间序列的非线性非平稳特性研究综述[A];国家安全地球物理丛书(八)——遥感地球物理与国家安全[C];2012年
4 李强;;基于线性模型方法对时间序列中异常值的检测及证券实证分析[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(上册)[C];2002年
5 戴丽金;何振峰;;基于云模型的时间序列相似性度量方法[A];第八届中国不确定系统年会论文集[C];2010年
6 谢美萍;赵希人;庄秀龙;;多维非线性时间序列的投影寻踪学习逼近[A];'99系统仿真技术及其应用学术交流会论文集[C];1999年
7 张大斌;李红燕;刘肖;张文生;;非线性时问序列的小波-模糊神经网络集成预测方法[A];第十五届中国管理科学学术年会论文集(下)[C];2013年
8 黄云贵;;基于时间序列的电网固定资产投资规模研究[A];2012年云南电力技术论坛论文集(文摘部分)[C];2012年
9 李松臣;张世英;;时间序列高阶矩持续和协同持续性研究[A];21世纪数量经济学(第8卷)[C];2007年
10 陈赫;罗声求;;历史横断面数据的时间序列化[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年
中国重要报纸全文数据库 前6条
1 ;《时间序列与金融数据分析》[N];中国信息报;2004年
2 何德旭 王朝阳;时间序列计量经济学:协整与有条件的异方差自回归[N];中国社会科学院院报;2003年
3 刘俏;让数据坦白真相[N];21世纪经济报道;2003年
4 西南证券高级研究员 董先安德圣基金研究中心 郭奔宇;预计6月CPI同比上涨7.2%[N];证券时报;2008年
5 东证期货 王爱华 杨卫东;两年涨跌轮回 秋季普遍下跌[N];期货日报;2009年
6 任勇郑重;中国对世界钢材价格的影响实证分析[N];现代物流报;2007年
中国博士学位论文全文数据库 前10条
1 张墨谦;遥感时间序列数据的特征挖掘:在生态学中的应用[D];复旦大学;2014年
2 张德成;滑坡预测预报研究[D];昆明理工大学;2015年
3 苗圣法;时间序列的模式检测[D];兰州大学;2015年
4 翁同峰;时间序列与复杂网络之间等价性问题及表征应用研究[D];哈尔滨工业大学;2015年
5 杨婷婷;用Argo浮标结合卫星观测估算北太平洋经向热输运[D];中国科学院研究生院(海洋研究所);2015年
6 史文彬;时间序列的相关性及信息熵分析[D];北京交通大学;2016年
7 原继东;时间序列分类算法研究[D];北京交通大学;2016年
8 卢伟;基于粒计算的时间序列分析与建模方法研究[D];大连理工大学;2015年
9 胡建明;基于正则化核学习模型的时间序列多步预测的研究与应用[D];兰州大学;2016年
10 黄标兵;回声状态网络时间序列预测方法及应用研究[D];吉林大学;2017年
中国硕士学位论文全文数据库 前10条
1 陈健;基于多变量相空间重构的投资组合策略研究[D];华南理工大学;2015年
2 兰鑫;时间序列的复杂网络转换策略研究[D];西南大学;2015年
3 米晓将;区域尺度下月均气温的时空演化格局研究[D];昆明理工大学;2015年
4 张鸣敏;基于支持向量回归的PM_(2.5)浓度预测研究[D];南京信息工程大学;2015年
5 林健;基于改进小世界回声状态网的时间序列预测[D];渤海大学;2015年
6 曹智丽;日气温和干旱指数支持向量回归预测方法[D];南京信息工程大学;2015年
7 高雄飞;基于分形理论的土壤含水量时间序列特性分析[D];长安大学;2015年
8 姚茜;城市安全生产发展目标研究[D];中国地质大学(北京);2015年
9 谢翠颖;苏州社会消费品零售总额简析[D];苏州大学;2015年
10 包仁义;基于时间序列的搜索引擎评估模型算法研究[D];东北师范大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026