收藏本站
《华东师范大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于衰减窗口与剪枝链表树的高维数据流聚类算法研究

王冬秀  
【摘要】: 近几年来,随着以互联网为代表的计算机信息技术的普及,数据呈飞速增长的趋势,人们积累的信息量达到了TB级,甚至PB级。在现实生活中,许多数据是以动态的“连续数据流”的形式出现的,它不同于传统的数据被存在静态介质中,可以被多次访问。数据流的特点是:(1)数据规模大;(2)维数高;(3)到达速度快;(4)潜在无序性;(5)每个元素只能被访问一次。因此,许多传统的聚类算法已经无法获得有意义的聚类结果,针对高维数据流普遍存在的“维度灾难”问题,本文将重点围绕如下几个问题展开: (1)如何设计有效的聚类算法,适应持续快速到来的高维数据流? (2)在聚类过程中,如何发现更多的聚类,提高聚类效果? (3)在聚类过程中,如何降低内存消耗? (4)在聚类过程中,如何提高算法的效率,减少算法的运行时间? 本文在对经典的数据流聚类算法进行学习和研究后,针对经典算法存在的不足,进行了改进和提高,提出了一种新的高维数据流聚类算法。主要工作包括以下三个方面: (1)为了有效地控制内存规模,在聚类过程中减少内存消耗,本文提出了一种概要数据结构—剪枝链表树,简称PL-Tree,用来保存数据流的摘要信息,在有任何聚类请求时,能够在线输出近似的聚类结果。本文采用核心技术数据淘汰和剪枝策略,有效地控制了内存规模,提高了算法的运行效率。 (2)为了设计一种高效的聚类算法,适应持续到来的高维数据流,本文基于PL-Tree概要数据结构,提出了一种基于衰减窗口与剪枝链表树的高维数据流聚类算法,简称PLStream算法。同时,为了减小历史数据对聚类结果的影响,利用衰减窗口及衰减因子对历史数据逐步进行衰减。最后用实验证明该算法的有效性。 (3)为了说明新算法的有效性,本文算法与经典算法CELL TREE算法进行了比较,实验表明,该算法在空间伸缩性和聚类效果方面都有较显著地提高。
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前3条
1 周晓云;孙志挥;张柏礼;杨宜东;;高维数据流子空间聚类发现及维护算法[J];计算机研究与发展;2006年05期
2 孙玉芬;卢炎生;;一种基于网格方法的高维数据流子空间聚类算法[J];计算机科学;2007年04期
3 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
中国博士学位论文全文数据库 前1条
1 王永利;数据流概要与数据流分析若干关键问题研究[D];东南大学;2006年
中国硕士学位论文全文数据库 前1条
1 曾伟;基于衰减窗口与剪枝维度树的实时数据流聚类研究[D];武汉科技大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 高志明,关岩,于洪梅,吴秀红,李井会;人工神经网络在化学中的应用进展[J];鞍山钢铁学院学报;2000年03期
2 万春红;邵超;;一种新的基于自组织映射的流形学习算法[J];北京交通大学学报;2009年06期
3 王新军;卿华;姚娇艳;;流水线加工调度问题的神经网络算法[J];兵工自动化;2011年10期
4 高明霞;姚文集;毛国君;;XML数据流中面向聚类的指数直方图[J];北京工业大学学报;2011年08期
5 陶兰;;Kohonen神经网络模型在柑桔区域规划专家系统中的应用[J];北京农业工程大学学报;1993年01期
6 杜大鹏;穆志纯;陈静;方新;;一种用于模拟汉字认知过程的多层自组织神经网络[J];北京科技大学学报;2007年01期
7 许俊刚,柯有安;自组织神经网络雷达目标识别的研究[J];北京理工大学学报;1992年03期
8 冯文峰;郭巧;吴素妍;;基于多层概要结构的数据流的频繁项集发现算法[J];北京理工大学学报;2006年06期
9 黄儒乐;吴江;韩宁;;林火烟雾图像自动识别中的模式分类器选择[J];北京林业大学学报;2012年01期
10 刘杏芳;郑晓东;徐光成;王玲;杨昊;;基于LLE方法的地震属性特征提取技术及其应用(英文)[J];Applied Geophysics;2010年04期
中国重要会议论文全文数据库 前10条
1 贾允毅;胥布工;王世华;刘步春;;端对端网络时钟漂移补偿算法研究及其实现[A];第二十六届中国控制会议论文集[C];2007年
2 陈志坤;杨树强;李爱平;郑黎明;;数据流与数据库之间混合连接查询算法的研究[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
3 ;A Neural Network Algorithm for the (m,d)-Coloring Problem of a Graph[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 江杨;;流数据存储系统体系结构研究[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
5 韩矞;贾焰;甘亮;;一种基于网络安全数据流的混合CUBE模型[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
6 王亦兵;杨树强;王晓伟;;一个面向数据流的多维分析系统的研究与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
7 刘东;韩伟红;郑黎明;;基于数据流管理系统的网络安全事件多维分析[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 蔡中华;;自组织映射(SOM)在研究地区产业结构聚类分析的应用[A];第九届中国青年信息与管理学者大会论文集[C];2007年
9 史金成;胡学钢;;基于约束的数据流聚类研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 杜阿宁;方滨兴;;面向网络报文流分析的频繁项监测技术研究[A];全国网络与信息安全技术研讨会'2005论文集(上册)[C];2005年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
3 吴海;移动实时数据库中的数据广播策略研究[D];华中科技大学;2010年
4 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
5 李曼荔;求解组合优化问题的神经计算方法[D];电子科技大学;2010年
6 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
7 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
8 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
9 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
10 吕琳;天然气水合物(地球物理属性)的神经网络识别方法及软件开发[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
2 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
3 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
4 Rojanakat Payomrat;基于神经网络的双目视差估计[D];哈尔滨工程大学;2010年
5 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
6 骆永健;基于聚类的数据流异常检测算法的研究[D];哈尔滨工程大学;2010年
7 刘振广;一种改进的k_means聚类算法研究[D];哈尔滨工程大学;2010年
8 辛涛;基于混合神经网络的视频序列压缩与加密算法研究[D];大连理工大学;2010年
9 韩君;近期数据流频繁项集挖掘[D];大连理工大学;2010年
10 卢晓伟;基于GPU的数据流处理方法研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 丁恰,卢建刚,钱玉妹,张剑,廖怀庆;一种实用的超短期负荷预测曲线外推方法[J];电力系统自动化;2004年16期
2 马静波,杨洪耕;自适应卡尔曼滤波在电力系统短期负荷预测中的应用[J];电网技术;2005年01期
3 徐科,徐金梧,班晓娟;基于小波分解的某些非平稳时间序列预测方法[J];电子学报;2001年04期
4 郭龙江,李建中,王伟平,张冬冬;数据流上的连续预测聚集查询[J];计算机研究与发展;2004年10期
5 宋国杰,唐世渭,杨冬青,王腾蛟;数据流中异常模式的提取与趋势监测[J];计算机研究与发展;2004年10期
6 刘学军;徐宏炳;董逸生;王永利;钱江波;;挖掘数据流中的频繁模式[J];计算机研究与发展;2005年12期
7 刘学军;徐宏炳;董逸生;钱江波;王永利;;基于滑动窗口的数据流闭合频繁模式的挖掘[J];计算机研究与发展;2006年10期
8 周晓云;孙志挥;张柏礼;杨宜东;;高维数据流聚类及其演化分析研究[J];计算机研究与发展;2006年11期
9 王勇;李战怀;张阳;蒋芸;;基于相反分类器的数据流分类方法[J];计算机科学;2006年08期
10 周晓云;张净;孙志挥;;高维Turnstile型数据流聚类算法[J];计算机科学;2006年11期
【相似文献】
中国期刊全文数据库 前10条
1 柳彦平;王文杰;谈恒贵;;数据挖掘空间聚类[J];计算机工程与应用;2005年35期
2 周霆;张伟;张泽洪;;基于关联规则的映射聚类算法[J];微电子学与计算机;2006年03期
3 牛琨;张舒博;陈俊亮;;采用属性聚类的高维子空间聚类算法[J];北京邮电大学学报;2007年03期
4 贺玲;蔡益朝;杨征;;高维数据聚类方法综述[J];计算机应用研究;2010年01期
5 顾冬娟;戴浩;;改进的基于密度和网格的高维聚类算法[J];科技创新导报;2008年22期
6 关庆;邓赵红;王士同;;子空间可能性聚类机制研究[J];计算机工程;2011年05期
7 姜斌;潘景昌;郭强;衣振萍;;PCA和相融性度量在聚类算法中的应用[J];电子科技大学学报;2007年06期
8 张燕萍;姜青山;;k-means型软子空间聚类算法[J];计算机科学与探索;2010年11期
9 周晓云;张净;孙志挥;;高维Turnstile型数据流聚类算法[J];计算机科学;2006年11期
10 陈海宇;曾德胜;;基于日志的异常软件使用模式检测[J];淮海工学院学报(自然科学版);2011年01期
中国重要会议论文全文数据库 前10条
1 任家东;周玮玮;何海涛;;高维数据流的自适应子空间聚类算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
2 周煜人;彭辉;桂卫华;;基于映射的高维数据聚类方法[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
3 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 陈冠华;马秀莉;杨冬青;唐世渭;帅猛;;面向高维数据的低冗余Top-k异常点发现方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
5 梁俊杰;杨泽新;冯玉才;;大规模高维数据库索引结构[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 史金成;胡学钢;;基于约束的数据流聚类研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 周皓峰;袁晴晴;程尊平;施伯乐;;PHC:一个基于分层的快速聚类算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
9 李国徽;黄蕾;;数据流环境下的基于加权网格的聚类算法研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
10 陈安;陈宁;周龙骧;;电子商务中交易数据库的二次聚类算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
中国重要报纸全文数据库 前7条
1 ;基于生物信息学的中医证候现代研究简述[N];中国中医药报;2004年
2 ;视频数据中挖“宝”[N];计算机世界;2002年
3 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
4 本报记者 于翔;多元管理防范金融风险[N];网络世界;2010年
5 记者 胡嫚;我国发布首个推荐引擎技术[N];中国知识产权报;2011年
6 本报实习记者 姚轩杰;浪淘金发布“推荐引擎”[N];中国证券报;2011年
7 记者 陈静;推荐引擎抢占行业先机[N];经济日报;2011年
中国博士学位论文全文数据库 前10条
1 蒋胜利;高维数据的特征选择与特征提取研究[D];西安电子科技大学;2011年
2 邹咸林;自然最近邻居在高维数据结构学习中的应用[D];重庆大学;2011年
3 项燕彪;高维数据的统计推断[D];浙江大学;2011年
4 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
5 陈黎飞;高维数据的聚类方法研究与应用[D];厦门大学;2008年
6 赵恒;数据挖掘中聚类若干问题研究[D];西安电子科技大学;2005年
7 吕艳萍;微粒群优化算法及其在高维数据聚类的应用研究[D];厦门大学;2009年
8 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
9 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
10 苏雅茹;高维数据的维数约简算法研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 王冬秀;基于衰减窗口与剪枝链表树的高维数据流聚类算法研究[D];华东师范大学;2010年
2 易莉桦;高维数据聚类算法的研究[D];燕山大学;2012年
3 周玮玮;基于子空间的高维数据流聚类算法研究[D];燕山大学;2010年
4 姚瑞霞;基于网格的高维数据流与序列数据聚类算法研究[D];燕山大学;2010年
5 王立强;基于多元统计图的高维数据降维方法及应用研究[D];燕山大学;2006年
6 陈路莹;高维数据的聚类分析方法研究及其应用[D];厦门大学;2009年
7 刘建;高维数据的本征维数估计方法研究[D];国防科学技术大学;2005年
8 闫妍;子空间聚类改进方法研究[D];大连理工大学;2008年
9 周骋;基于高维数据的双聚类算法研究与应用[D];南京理工大学;2009年
10 陈铭;高维聚类算法研究[D];南京师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026