收藏本站
《曲阜师范大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

流式数据的并行聚类算法研究

许振佳  
【摘要】:随着计算机、移动和物联网设备的普及,各类网络应用逐渐泛在化,由此产生了大量多源、异构的流式数据,如网络入侵数据、股票数据和天气监测数据等。流式数据具有多样化、时序性、海量、连续到达、潜在无限等特点,从而使基于流式数据的挖掘任务变得更加复杂,且富有挑战性。聚类作为一种无监督的学习方式,是数据挖掘的一种重要方法,它能根据数据间的相似性对数据进行划分,并根据划分结果对数据进行归类,从而有助于从海量数据中提取潜藏的、未知的、有价值信息。基于流数据的数据挖掘一方面限制于有限的主存空间和低下的磁盘I/O效率,不能将数据全部持久化存储;另一方面则受流式数据处理方法的制约,不能实时、在线挖掘。因而,如何实时、高效、可靠地处理流式数据,成为了数据挖掘方面一个值得关注的难点问题。近年来,并行与分布式计算、集群架构及其相关技术的迅速普及与应用,为解决大规模流式数据的实时挖掘带来了曙光。本文将并行化的思想引入到流数据的聚类处理中,在分布式内存计算框架Spark下将聚类算法并行化,实现数据在多台计算机上的并行处理,从而提供高吞吐量、高容错性的实时处理。本文具体研究内容如下:(1)针对流式数据特点,对流式数据聚类算法进行了详细研究,给出了流式数据聚类算法的分类,分析了分布式计算框架Hadoop上MapReduce编程模型的工作原理和实现机制,并在流数据处理方面与分布式内存计算框架Spark进行了比较,总结了Spark具有的并行处理优势。(2)在研究CluStream算法的基础上,针对数据处理时的时效性和算法参数敏感性问题,提出了一种针对流数据的基于变长滑动窗口和遗传算法相结合的CluWin-GA聚类算法。实验分析表明,该算法具有良好的时效性和可靠性,是一种具有动态自适应能力的流数据聚类新算法。(3)将内存计算及并行化理念引入到流数据聚类过程中,继而应用Spark分布式计算框架改进了流数据聚类算法的并行化策略。借助Spark平台,本文实现了CluStream算法以及改进算法CluWin-GA的聚类并行化。结果表明,利用分布式计算框架Spark,改进后的并行聚类算法能更好地实现对流数据的实时、高效、可靠的聚类处理。总之,本文从流数据特点入手,借助变长滑动窗口技术和遗传算法提出了一种双层架构的流数据聚类算法;通过将内存计算和并行化的思想引入到流式数据聚类中,实现了Spark并行计算框架下流数据的并行聚类,从而为流式数据聚类算法的进一步研究奠定了基础,对大数据和云计算背景下的并行数据分析具有较高的理论意义和实践价值。
【学位授予单位】:曲阜师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 罗可;张学茂;;一种高效的频集挖掘算法[J];长沙理工大学学报(自然科学版);2006年03期
2 刘彩云;陈忠;;蚁群算法的研究进展及应用[J];软件导刊;2008年09期
3 张丽芳;;3种聚类算法性能比较分析[J];长江大学学报(自然科学版)理工卷;2009年02期
4 刘晓平;图象开窗算法[J];CT理论与应用研究;1996年04期
5 江少锋,杨素华;一种简单高效的图象缩小算法[J];南昌航空工业学院学报(自然科学版);2003年04期
6 张林;吴振强;;一种高效的随机混淆匿名算法[J];计算机应用研究;2008年05期
7 蔡涛,王润生;分开合并算法的若干讨论和改进[J];国防科技大学学报;2000年04期
8 王子菡,杨恢先,杨穗,陶霞;数控绘图系统中的绘图基本算法[J];微计算机信息;2003年12期
9 严建峰;李伟华;杜北;;基于规模压缩的混合蚁群算法[J];控制与决策;2007年09期
10 王高鹏;窦丽华;陈杰;张娟;陈晨;;一种基于PBIL算法和变焦算法的混合算法[J];模式识别与人工智能;2009年01期
中国重要会议论文全文数据库 前10条
1 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年
2 宁春平;田家玮;郭延辉;王影;张英涛;郑桂霞;刘研;;计算机辅助增强、分割算法在鉴别乳腺良、恶性肿块中的应用价值[A];中华医学会第十次全国超声医学学术会议论文汇编[C];2009年
3 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 杨文杰;吴军;;RFID抗冲突算法研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
5 郑存红;;复杂背景下相关跟踪算法研究及DSP实现[A];中国光学学会2010年光学大会论文集[C];2010年
6 高山;毕笃彦;魏娜;;一种基于UPF的小目标TBD算法[A];第十四届全国图象图形学学术会议论文集[C];2008年
7 周磊;张卫华;王晓奇;张军;;基于流水算法的智能路障机器人设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
8 李伟伟;蔡康颖;郑新;王文成;;3D模型中重复结构的多尺度快速检测算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
9 潘巍;李战怀;陈群;索博;李卫榜;;面向MapReduce的非对称分片复制连接算法优化技术研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
10 杨任尔;陈恳;励金祥;;基于棱边方向检测的运动自适应去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中国重要报纸全文数据库 前1条
1 国泰君安资产管理部;“算法交易”是道指暴跌罪魁祸首?[N];上海证券报;2010年
中国博士学位论文全文数据库 前10条
1 冯辉;网络化的并行与分布式优化算法研究及应用[D];复旦大学;2013年
2 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年
3 李琰;基于猫群算法的高光谱遥感森林类型识别研究[D];东北林业大学;2015年
4 陈加顺;海洋环境下聚类算法的研究[D];南京航空航天大学;2014年
5 张冬丽;人工蜂群算法的改进及相关应用研究[D];燕山大学;2014年
6 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
7 王征;分布式互斥算法的研究与实现[D];电子科技大学;2007年
8 杨世品;P系统优化算法及应用研究[D];浙江大学;2013年
9 王艳娇;人工蜂群算法的研究与应用[D];哈尔滨工程大学;2013年
10 张毅;群智能算法的改进及其在相关领域中的应用[D];吉林大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026