收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于MapReduce的聚类算法并行化研究

王恺  
【摘要】:随着经济社会的发展,互联网应用的深入以及个人电脑、智能手机等终端设备的普及,全世界数据总量以每两年翻一番的速度递增,人们进入了一个大数据时代。面对大规模海量数据和高维度数据类型,传统计算模型(单机模型和传统并行计算模型)已经难以提供所需的处理能力,MapReduce计算模型的出现为数据的处理提供了新的方式。与传统并行计算模型相比,MapReduce计算模型由底层完成分割数据、分配任务、处理并行细节以及容错等工作,具有易扩展、学习、使用和部署的特点,是一种简洁抽象的并行编程模型。用户只需将注意力集中在自己要解决的并行计算任务上,无需关心并行实现的细节,这极大地简化了并行程序的设计。将MapReduce模型应用于算法并行化设计中,可以有效提高算法的执行效率,具有实际应用价值。本文利用MapReduce模型对聚类分析中常用的K-means和DBSCAN算法进行并行化研究,取得的成果如下: 1.提出了一种基于划分的并行K-means算法一—HPKBDP算法。该算法首先将数据集划分成若干数据块,并将它们分配给不同的计算节点,每个计算节点在数据块中执行K-means算法,对各计算节点产生的局部聚类中心执行加权的K-means算法,产生最终的聚类中心。这样就不用对整个Map和Reduce过程进行迭代,且只从磁盘需读取一次数据集。实验结果表明该算法提高了聚类速度,具有良好的加速比和扩展率,并且能获得比传统K-means算法更高的聚类质量。 2.提出了一种快速数据划分方法。数据划分是实现算法并行化的前提,划分时间的长短直接影响并行算法的执行效率。为了提高数据划分速度,本文提出了一种快速数据划分方法。该方法在对原数据集进行划分的同时,计算待产生数据集的相关信息,将这些相关信息直接作为下次数据划分的依据,减少了对所产生的数据集的扫描次数,提高了数据划分速度。 3.设计了一种DBSCAN算法的快速执行流程。在对DBSCAN算法进行并行化时,需要对划分后的局部数据块进行基于密度的聚类,为此重新设计了DBSCAN算法的执行流程,以提高DBSCAN算法的执行速度。实验结果表明该方法提高了算法的整体运行效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王纪川;刘宇;齐勇;侯迪;;一种摄像机采集图像的二值化算法[J];计算机工程与应用;2007年30期
2 练在中;三维隐藏线消除法综述[J];计算机研究与发展;1987年10期
3 刘伯强,曹景森,胡咏梅;浓碱液测量过程中算法的探讨[J];基础自动化;1995年04期
4 杨正瓴;排序问题串行算法复杂性下界关系讨论[J];天津大学学报;1993年06期
5 刘伯强,刘忠国;张力同步系统微机控制算法的实现[J];机械与电子;2000年04期
6 孙杨模;;操作系统常见的几种算法举例分析[J];湖北三峡职业技术学院学报;2010年02期
7 杨锦宣;;重复数据统计算法及在商务网站中的应用[J];科技信息;2011年20期
8 马后永;张守川;靖旭;吴毅;;测量大气相干长度的数据处理算法比对研究[J];大气与环境光学学报;2010年06期
9 刘伯强;曹景森;;单片机控制系统中算法的处理和应用[J];电气自动化;1995年02期
10 杜玉兰;赵磊;;基于C#的HASH算法探析[J];计算机安全;2007年08期
11 郑向宁;;声呐数据动态显示的线性插值抽值算法[J];声学与电子工程;2010年02期
12 江萍;;基于局部信息的图像滤波及边缘锐化算法[J];当代农机;2010年06期
13 刘伯强;多电机系统微机控制技术的研究[J];电机与控制学报;2000年04期
14 刘伯强;多电机系统微机控制技术的研究[J];山东科学;2000年03期
15 俞斌;汤群芳;曹才开;;一种基于DSP的视频图像压缩系统的设计[J];国外电子元器件;2007年04期
16 孙杨模;;《操作系统概论》常见的几种算法[J];恩施职业技术学院学报;2010年01期
17 吕孟军;张纯良;游有鹏;徐峰;;提高莫尔条纹正切法细分精度的改进算法[J];纳米技术与精密工程;2011年03期
18 苏俊宏,陈磊,朱日宏;干涉图空域延拓技术研究[J];红外与激光工程;2005年04期
19 徐盛;樊士伟;庄家礼;;图像信号预处理的一种算法[J];飞行器测控学报;2006年03期
20 施政;;多人视频聊天系统中的视频压缩算法研究[J];中国传媒科技;2005年10期
中国重要会议论文全文数据库 前10条
1 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 黄友锐;赵娜娜;;一种基于小波分析的焊缝识别算法[A];煤矿自动化与信息化——第20届全国煤矿自动化与信息化学术会议暨第2届中国煤矿信息化与自动化高层论坛论文集[C];2010年
3 李易;管庆;;基于DM642的智能视频监控系统[A];2008年中国西部青年通信学术会议论文集[C];2008年
4 张明慧;;基于模糊蒙片算法的CR图像边缘增强[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
5 侯艳芳;冯红梅;;基于神经网络的调制识别算法的研究[A];武汉(南方九省)电工理论学会第22届学术年会、河南省电工技术学会年会论文集[C];2010年
6 程勇新;朱清新;;一种基于边折叠LOD技术的蒙皮动画算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
7 宁佐贵;;模糊控制算法的等价关系[A];中国工程物理研究院科技年报(1999)[C];1999年
8 刘田军;唐友喜;孙德福;;基于预修正ACE的OFDM系统峰平比抑制方法[A];2008年中国西部青年通信学术会议论文集[C];2008年
9 孙岚;刘雁春;陆秀平;欧阳永忠;李明叁;许家琨;;利用CUBE算法处理多波束测深数据研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
10 孙岚;刘雁春;陆秀平;欧阳永忠;李明叁;许家琨;;利用CUBE算法处理多波束测深数据研究[A];第二十一届海洋测绘综合性学术研讨会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 杨矫云;大规模生物序列分析的高性能算法和模型[D];中国科学技术大学;2014年
2 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
3 黄亮;社会网络中的社区发现与链接预测算法研究[D];华中科技大学;2012年
4 石斌斌;高自由度GNSS抗干扰技术研究[D];国防科学技术大学;2011年
5 李一明;基于传导闭包图结构的布图算法研究[D];电子科技大学;2011年
6 樊玲;微弱目标检测前跟踪算法研究[D];电子科技大学;2013年
7 郭玉坤;某些正反散射问题的快速算法研究[D];吉林大学;2010年
8 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年
9 张琦;基于聚合场模型的数据竞争算法及其应用研究[D];哈尔滨工程大学;2013年
10 杨春宇;数据流上的聚类与分类算法[D];清华大学;2009年
中国硕士学位论文全文数据库 前10条
1 陈志强;基于经验模态分解算法的列车超偏载检测[D];中南大学;2010年
2 戴金;改进K-MEANS算法及在Ⅰ型糖尿病血糖值的聚类应用[D];北京交通大学;2011年
3 余港;改进PSO算法及其应用[D];成都理工大学;2010年
4 余兵;基于枝条相关性的人工植物算法[D];太原科技大学;2013年
5 李亚龙;改进量子蚁群算法的研究及应用[D];安徽大学;2014年
6 汪洋;复杂网络的社团发现算法研究[D];安徽大学;2014年
7 段奇志;元器件光学检测系统的算法研究与实现[D];哈尔滨工业大学;2011年
8 庞秀立;基于色散算法的超宽带微波肿瘤检测技术研究[D];西安电子科技大学;2013年
9 史世泽;局部敏感哈希算法的研究[D];西安电子科技大学;2013年
10 石丽红;基于SOM算法的高维数据可视化[D];燕山大学;2013年
中国重要报纸全文数据库 前10条
1 张韵萍苏小兰 李宾;对抗“震魔”的科技武器[N];中国经营报;2008年
2 赵艳秋李映;DSP核供应商灵活应对潜力应用[N];中国电子报;2007年
3 韩霁;高新技术在抗震救灾中得到应用[N];经济日报;2008年
4 ;系统加密防破解[N];中国计算机报;2008年
5 李晓萍;探测生命的“四种武器”[N];人民公安报;2008年
6 张显峰;机载干涉SAR系统掀起测绘革命[N];中国矿业报;2004年
7 ;22寸宽屏典范[N];电子资讯时报;2007年
8 苗得雨;挺进图像搜索时代[N];电脑报;2008年
9 本报记者 王繁泓;定华:破解储罐液位测量难题[N];中国化工报;2006年
10 记者 董映璧;人类活动影响全球气温[N];科技日报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978