收藏本站
《华侨大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Spark Streaming的流聚类算法StreamCKS的设计与实现

张玉侠  
【摘要】:当今对海量且持续高速产生的流数据进行实时处理和分析的需求正在迅速地增长。这使得集中式流数据分析和处理技术难以胜任。另一方面,随着大数据信息的爆发,如何将传统的流处理技术扩展到分布式计算环境中成为热点研究方向之一。本文将从数据流的聚类算法入手,尝试将典型的数据流聚类算法在Spark Streaming中实现,以期借助Spark框架本身的架构模式,使数据流聚类并行化,从而提升流聚类算法的效率。本文主要研究内容如下:1)基于Spark Streaming分布式的流聚类框架设计:基于经典的流聚类双层处理框架,对其在线阶段增加了Spark Streaming模块用于获取数据流,并对数据进行微聚类操作;对其离线阶段主要使用了Spark批处理模块进行并行化聚类。2)基于SSBuf树的Stream CKS数据流在线聚类算法实现:针对数据流和SparkStreaming平台的特性,在原有数据流聚类算法(Clus Stream、Steam KM++等)的基础上提出了Stream CKS算法。针对Stream CKS算法的在线模块设计了SSBuf树,使之能通过预聚类操作和缓存机制解决数据流的高速突发状况,实现维持数据流概要信息的作用。3)基于Canopy和K-Means的Stream CKS数据流离线聚类算法实现:采用Canopy算法进行粗聚类来初始化K-Means算法中的k值和初始中心点,进而降低K-Means算法的迭代次数,提高聚类结果的精度和稳定性。4)基于Spark Streaming平台的Stream CKS算法优化:针对Spark Streaming的平台特性,从数据序列化和缓存大小等系统配置方面进行Spark Streaming的调优,从而进一步提升了Stream CKS算法的并行效率和可扩展性。最后,在真实数据集上对Stream CKS进行测试。实验结果显示:相比经典的Clu Stream和Stream KM++算法,Stream CKS算法可以维持更多的聚类微簇,表明其可以响应高速数据流;Stream CKS算法在聚类中心数少的时候,有更好的精度;随着节点的增加,Stream CKS算法在高维数据集中优势明显,具有更高的加速比和吞吐量。
【学位授予单位】:华侨大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 崔星灿;禹晓辉;刘洋;吕朝阳;;分布式流处理技术综述[J];计算机研究与发展;2015年02期
2 孙大为;张广艳;郑纬民;;大数据流式计算:关键技术及系统实例[J];软件学报;2014年04期
3 张建朋;陈福才;李邵梅;刘力雄;;基于密度与近邻传播的数据流聚类算法[J];自动化学报;2014年02期
4 朱林;雷景生;毕忠勤;杨杰;;一种基于数据流的软子空间聚类算法[J];软件学报;2013年11期
5 冯波;郝文宁;陈刚;占栋辉;;K-means算法初始聚类中心选择的优化[J];计算机工程与应用;2013年14期
6 赵卫中;马慧芳;傅燕翔;史忠植;;基于云计算平台Hadoop的并行k-means聚类算法设计研究[J];计算机科学;2011年10期
7 张雪凤;张桂珍;刘鹏;;基于聚类准则函数的改进K-means算法[J];计算机工程与应用;2011年11期
8 张晨;金澈清;周傲英;;一种不确定数据流聚类算法[J];软件学报;2010年09期
9 仵雪婷;周明建;;数据流挖掘方法研究[J];计算机与现代化;2010年04期
10 李博涵;郝忠孝;;一种基于聚类分析的R~*树结点重叠判定算法[J];计算机研究与发展;2008年12期
中国硕士学位论文全文数据库 前1条
1 李应安;基于MapReduce的聚类算法的并行化研究[D];中山大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 李莉;;基于云计算平台Hadoop的并行k-means聚类算法设计研究[J];网络安全技术与应用;2017年12期
2 刘哲;张卫华;李松柏;卫誉洲;;基于Kinect与九轴传感器的篮球训练系统的应用研究[J];电脑迷;2017年11期
3 MA Hua;HU Zhigang;CAI Meiling;;Trustworthy Service Selection Integrating Cloud Model and Possibility Degree Ranking of Interval Numbers[J];Chinese Journal of Electronics;2017年06期
4 郭蒙雨;康宏;袁晓洁;;基于流式计算框架的实时数据库分区系统[J];计算机工程;2017年11期
5 陈志云;肖楚乔;;基于Storm的工业流水线实时分析系统设计与实现[J];计算机应用与软件;2017年11期
6 刘一鸥;;基于时间引子的购物网站用户兴趣变化研究[J];电子设计工程;2017年20期
7 何跃;尹小佳;朱超;;基于情感及影响力的微博用户群体特征分析——以A手机为例[J];数据分析与知识发现;2017年10期
8 倪赛龙;王永利;赵忠文;董振江;;基于分层抽样的数据流近似查询算法[J];计算机工程与设计;2017年10期
9 沈泓;冯晴;;智能仿真实时控制在露天矿运输网络中应用[J];哈尔滨理工大学学报;2017年05期
10 尹诗;迟岩;王其乐;王寅生;何伟;;基于大数据的风电生产运营监控系统设计与实现[J];分布式能源;2017年05期
中国硕士学位论文全文数据库 前10条
1 陈威;基于Hadoop的K-means遥感影像分类算法的研究[D];江西理工大学;2017年
2 刘建红;基于Hadoop平台的聚类算法并行化研究[D];吉林大学;2017年
3 曾新励;基于Hadoop平台的分布式web日志分析系统的研究与实现[D];西南石油大学;2017年
4 张玉侠;基于Spark Streaming的流聚类算法StreamCKS的设计与实现[D];华侨大学;2017年
5 丁艺;基于内容的新浪微博舆情预测研究[D];首都经济贸易大学;2017年
6 刘珊珊;基于云计算平台Hadoop的聚类神经网络算法的研究与实现[D];贵州大学;2016年
7 李泉霖;基于Hadoop的XML关键字查询算法研究[D];辽宁师范大学;2016年
8 赵明;基于Mapreduce的大量物流配送线路优化与实现[D];贵州财经大学;2016年
9 谢洪彬;基于Hadoop的城市道路交通状态判别技术研究[D];华南理工大学;2016年
10 冯青平;基于云计算的交通流预测与状态识别关键技术研究[D];江苏大学;2016年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙大为;张广艳;郑纬民;;大数据流式计算:关键技术及系统实例[J];软件学报;2014年04期
2 王元卓;靳小龙;程学旗;;网络大数据:现状与展望[J];计算机学报;2013年06期
3 李建中;刘显敏;;大数据的一个重要方面:数据可用性[J];计算机研究与发展;2013年06期
4 冯芷艳;郭迅华;曾大军;陈煜波;陈国青;;大数据背景下商务管理研究若干前沿课题[J];管理科学学报;2013年01期
5 孟小峰;慈祥;;大数据管理:概念、技术与挑战[J];计算机研究与发展;2013年01期
6 覃雄派;王会举;李芙蓉;李翠平;陈红;周烜;杜小勇;王珊;;数据管理技术的新格局[J];软件学报;2013年02期
7 李国杰;程学旗;;大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J];中国科学院院刊;2012年06期
8 王骏;王士同;邓赵红;;特征加权距离与软子空间学习相结合的文本聚类新方法[J];计算机学报;2012年08期
9 于彦伟;王沁;邝俊;何杰;;一种基于密度的空间数据流在线聚类算法[J];自动化学报;2012年06期
10 亓开元;赵卓峰;房俊;马强;;针对高速数据流的大规模数据实时处理方法[J];计算机学报;2012年03期
中国硕士学位论文全文数据库 前3条
1 邓自立;云计算中的网络拓扑设计和Hadoop平台研究[D];中国科学技术大学;2009年
2 祁小丽;一种改进的快速聚类算法及并行化研究[D];兰州大学;2009年
3 毛嘉莉;聚类K-means算法及并行化研究[D];重庆大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 ;Control of Perceptual Image Quality Based on PID for Streaming Video[J];The Journal of China Universities of Posts and Telecommunications;2003年04期
2 谭劲,余胜生,周敬利;A Caching Strategy for Streaming Media[J];Journal of Shanghai University;2004年01期
3 董海燕,芦汉生,李升才,侯山峰,高稚允;New Rate Allocation Method for MPEG-4 FGS Video Streaming[J];Journal of Beijing Institute of Technology(English Edition);2005年02期
4 康亮;;HTTP Streaming技术发展趋势[J];电信网技术;2011年06期
5 郭常杰,沈国斌,李世鹏,钟玉琢;Peer-Paired Collaboration for On-Demand Streaming Applications and an Improved Error Recovery Technique[J];Tsinghua Science and Technology;2003年06期
6 戢彦泓,郭常杰,钟玉琢,孙立峰;Optimal Rate Allocation Algorithm for Multiple Source Video Streaming[J];Tsinghua Science and Technology;2004年04期
7 马然,张兆扬,江涛,石旭利;An Improved MDC-Based ORB-DCT Method for Video Streaming over the Internet[J];Journal of Shanghai University;2005年04期
8 BOUAZIZI Imed;HANNUKSELA Miska M;RAUF Usama;;Coping with handover effects in video streaming over cellular networks[J];Journal of Zhejiang University Science A(Science in Engineering);2006年S1期
9 ;Unequal Forced-Intra-Refresh for robust video streaming[J];Journal of Zhejiang University Science A(Science in Engineering);2006年10期
10 ;Equation based rate control scheme for video streaming over wireless channels with link level ARQ[J];Journal of Zhejiang University Science A(Science in Engineering);2006年10期
中国重要会议论文全文数据库 前10条
1 Xiaoyu Ma;Rui Jin;;Design and implementation of a streaming media transmission system[A];Proceedings of 2011 International Conference on Computer Science and Information Technology(ICCSIT 2011)[C];2011年
2 Xudong Sun;Jianjun Lu;;The Research in Streaming Media On-Demand Technology based on IP Multicast[A];proceedings of 2010 3rd International Conference on Computer and Electrical Engineering (ICCEE 2010 no.1)[C];2012年
3 冯侦探;;A Physical Topology Related Overlay Network for the P2P Media Streaming System[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
4 ;Video analysis based real time smart streaming video codec[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 ;A Congestion Control Mechanism of Streaming Media Transmission[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
6 ;Investigation of Flow Field in Microchannel Actuated by Ultrasonic Vibration[A];第二届全国压电和声波理论及器件技术研讨会摘要集[C];2006年
7 Z.WANG;A.T.SORNBORGER;L.TAO;;A neural circuit for binding spatially localized objects from streaming visual information[A];中国神经科学学会第十届全国学术会议论文摘要集[C];2013年
8 Li-fang Zhao;;Streaming Media Technology in the Digital Library Information Transmission[A];proceedings of 2010 3rd International Conference on Computer and Electrical Engineering (ICCEE 2010 no.2)[C];2012年
9 ;Protocol of Steganography in Streaming Media on VOIP Network Based on Variable Length Coding[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
10 Li-jun Sun;Li-ying Yu;Hao Xu;Liang Shi;Jian-bao Zhang;;Synergistic effects of fluid shear stress and pulsed electromagnetic field on osteoblasts[A];第十届全国生物力学学术会议暨第十二届全国生物流变学学术会议论文摘要汇编[C];2012年
中国重要报纸全文数据库 前1条
1 董 权;录音产业值得期待[N];中国计算机报;2004年
中国硕士学位论文全文数据库 前10条
1 Fredrik Rosenqvist;基于Web的流平台服务器端的设计与实现[D];哈尔滨工业大学;2015年
2 李天喜;基于Spark Streaming的试验数据处理系统的研究与实现[D];西安电子科技大学;2015年
3 夏玮;基于Spark Streaming的动态社区发现及其在个性化推荐应用中的研究[D];江苏大学;2017年
4 陈润;面向铁路运维的大数据流式处理技术的研究与应用[D];北京交通大学;2017年
5 张玉侠;基于Spark Streaming的流聚类算法StreamCKS的设计与实现[D];华侨大学;2017年
6 李云飞;基于HTTP Streaming的课程直播系统中流传输子系统的优化[D];上海交通大学;2013年
7 陈达伟;一种面向用户体验提升的HTTP Streaming播放优化技术[D];北京邮电大学;2014年
8 陈靖隆;基于Http Live Streaming Protocol的移动流媒体系统设计与实现[D];华南理工大学;2011年
9 谢顺华;分布式医学影像数据的Streaming技术框架研究及实践[D];浙江大学;2003年
10 Salah Addin Mohammed;[D];北京理工大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026