收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的聚类算法并行化分析及应用研究

陈爱平  
【摘要】:伴随着计算机技术的迅猛发展以及互联网的快速普及,人们所接触的数据量(包括有结构和无结构的文本数据)呈现爆炸式增长。当前,如何有效快速地从海量数据中挖掘出有价值的信息具有重要的意义。聚类分析是进行数据挖掘的核心技术之一。传统单机的聚类算法无论从效率上,还是从计算复杂度上都已无法满足海量信息的处理需要,云计算技术的发展为聚类分析提供了新的研究方向。 Hadoop,作为Apache下的开源的项目,是一个用于构建云平台的分布式的计算框架。在Hadoop平台上,采用HDFS(分布式文件系统)存储数据,采用MapReduce编程模式来实现对海量数据的并行化处理。根据传统聚类算法本身的特点,并且结合MapReduce的编程模式,使得开发人员不需过多了解并行化的具体通信实现,就可以实现聚类算法的快速并行化,高效而且容易实现。 本文对传统的各种聚类算法进行了比较,针对传统的K-means算法在初始聚类中心选择的随机性以及聚类结果的局部最优性进行了适当的改进,并将改进结果结合Hadoop框架进一步应用到实际项目中的相关领域,而且进行了深入的研究。结果表明,这些改进使得算法在执行效率和结果的精确性方面都有明显提高。 本文的工作重点总结如下: 1)研究了MapReduce编程模型,分析了传统K-means算法以及Canopy算法的优缺点,提出了基于canopy的二次聚类算法(CTK)的思想,并给出了该算法在Hadoop上的并行设计框架,描述了其具体实现。 2)分析了最大最小距离算法,提出了基于最大最小距离原理的K-means聚类算法(MMKMEANS)的思想。结合MapReduce编程模型,实现了该算法在Hadoop平台上的并行化。 3)分析了聚类应用于热点生成的整体流程。研究了使用nutch采集网页信息的策略,以及解析后的网页内容表示成文本向量的并行化实现过程,并以此提供上述算法的实验数据,并且还给出了聚类用于热点生成的并行化实现。 4)通过实验结果验证了上述算法在文本聚类中的聚类质量、查准率、查全率以及并行化的加速比等方面的优越性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张效民;增强网络协议处理能力的可行性研究[J];长沙通信职业技术学院学报;2004年01期
2 张伟,郑涛,李辉;一种并行化的分组关联规则算法[J];计算机工程;2004年22期
3 胡林锋;于映;;H.264/AVC解码端帧内预测的设计与实现[J];微计算机信息;2009年09期
4 陈如云;符保龙;;SPRINT算法的并行性研究与应用[J];商场现代化;2007年20期
5 蒋作;高毅;;关于串行程序并行化[J];云南民族大学学报(自然科学版);2007年03期
6 刘鹏飞;董守斌;曹以诚;杜正平;;网格环境下蛋白质多重结构比对的架构及其实现[J];华中科技大学学报(自然科学版);2007年S2期
7 魏广博;张平;黄国睿;;面向多核的基于RSTM系统的冲突管理策略[J];计算机工程;2010年10期
8 赵景琰;金鹰翰;赵培;王进祥;;并行化的BCH编解码器设计[J];微处理机;2010年02期
9 陶冶;曾志勇;余建坤;冯涛;;并行k均值聚类算法的完备性证明与实现[J];计算机工程;2010年22期
10 杨森;周晓珊;杨洪斌;;CALMET的OpenMP并行化[J];气象与环境学报;2010年06期
11 罗秋明;欧阳凯;;PVFS元数据服务器的并行化设计与实现[J];计算机工程;2006年12期
12 张雯;骆志刚;赵翔;王金华;靳新;;剪接比对软件sim4的并行化研究与实现[J];微电子学与计算机;2006年09期
13 牛北方;郎显宇;陆忠华;迟学斌;;mRNA可变剪接问题的并行化研究[J];计算机应用研究;2008年03期
14 余壮辉;黄永忠;周蓓;;即时通信信息还原并行处理模型[J];计算机工程;2008年05期
15 陈茹;张文耀;宁建国;;三维前处理有限差分网格剖分的并行化技术[J];计算机工程;2009年04期
16 金桃;何艳珊;宋伟国;岳敏;;一种简单有效的并行化频繁项集挖掘算法[J];微计算机信息;2010年18期
17 苗春葆;赵鹏;沈飙;刘永玲;;一个通用的并行函数库[J];计算机应用与软件;2011年06期
18 朱小蓉;基于先进制造技术的CAPP系统研究发展探讨[J];机械研究与应用;2001年02期
19 赵灵军;刘定生;李国庆;章文毅;;卫星数据高性能精校正处理研究[J];国土资源遥感;2007年01期
20 ;James Reinders:欢迎来到并行时代[J];消费电子商讯;2009年08期
中国重要会议论文全文数据库 前10条
1 王本龙;龚凯;刘桦;;自由表面流动问题的并行化SPH方法求解[A];中国力学学会学术大会'2009论文摘要集[C];2009年
2 刘超;王希诚;;基于MPI的自动并行化系统的研究与实现[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
3 杜兵举;;基于CATIA V5飞机数字化设计环境下的模线样板并行设计[A];陕西省航空装备制造技术发展——第九届陕西省青年科学家论坛论文集[C];2006年
4 胡林锋;于映;;H.264/AVC解码端帧内预测器的硬件设计与实现[A];第十届中国科协年会论文集(四)[C];2008年
5 张雯;骆志刚;赵翔;王金华;靳新;;剪接比对软件sim4的并行化研究与实现[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
6 张志敏;梁逸曾;王家俊;;并行交互检验方法及其在近红外光谱中的应用[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
7 严繁妹;骆志刚;管乃洋;丁凡;王金华;;基于并行的同源RNA序列快速搜索算法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
8 蔡毅;骆志刚;;DNA序列拼接算法分析及并行化探讨[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
9 吴明一;王红星;秦玉波;李鑫钢;徐世民;;CFD并行计算技术的研究进展[A];第二届全国塔器及塔内件技术研讨会会议论文集[C];2007年
10 吴建平;李晓梅;;块三对角线性方程组不完全分解预条件的一种并行化方法[A];全国计算物理学会第六届年会和学术交流会论文摘要集[C];2007年
中国博士学位论文全文数据库 前10条
1 余湛悦;并行化数控编程和加工仿真关键技术的研究与实现[D];南京航空航天大学;2003年
2 乔海泉;并行仿真引擎及其相关技术研究[D];国防科学技术大学;2006年
3 丁晓宁;面向CFD的交互式并行化技术研究[D];西北工业大学;2002年
4 孙宏元;基于HPC的多分辨空间信息应用基础平台关键技术研究[D];西安电子科技大学;2006年
5 倪安宁;并行交通仿真模型及关键算法研究[D];吉林大学;2007年
6 刘瑜;FDTD算法的网络并行研究及其电磁应用[D];电子科技大学;2008年
7 潘斌;几何定理机器证明并行算法研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
8 陈皓;基于光子映射的虚拟现实真实感渲染算法研究[D];合肥工业大学;2008年
9 刘圆;多核结构上高效的线程级推测及事务执行模型研究[D];中国科学技术大学;2007年
10 陈建军;非结构化网格生成及其并行化的若干问题研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 韩东;建筑设计与数控建造的并行化整合研究[D];天津大学;2012年
2 罗爱宝;梯度下降类和EM类迭代算法的并行化研究[D];南京大学;2012年
3 周洋;带自由表面三维浅水流动的并行化模拟研究[D];上海交通大学;2013年
4 章骏;DPM程序并行化及在调强放射治疗计划系统应用研究[D];中国科学技术大学;2014年
5 江晓悟;基于龙芯平台的并行化动态二进制翻译中无锁队列的研究[D];中国科学技术大学;2014年
6 闫玉忠;串行程序并行化技术研究与一种新实现构想[D];西南交通大学;2003年
7 庄钟杰;基于MPI的并行化刚体动力学仿真[D];华南理工大学;2013年
8 付新;基于Web Service的工作流系统及优化[D];重庆大学;2005年
9 缪大俊;G蛋白偶联受体结构并行化预测的研究[D];苏州大学;2012年
10 俞翠;基于样图实体纹理合成的加速算法[D];天津大学;2008年
中国重要报纸全文数据库 前10条
1 记者 鲁媛媛;英特尔软件进入并行时代[N];网络世界;2009年
2 ;服务器软件的并行化革命[N];网络世界;2006年
3 吴加录;英特尔软件大会:软件进入多核时代[N];中国计算机报;2008年
4 田梦;软件开发进入多核时代[N];计算机世界;2008年
5 刘洪宇;释放多核潜能 挑战仍在并行软件[N];中国计算机报;2008年
6 林毅 戴涛;为精细油藏描述提供有力保障[N];中国石化报;2007年
7 鲁媛媛;英特尔开启多核时代应用年[N];网络世界;2008年
8 本报实习记者 张海志;多核时代敲门电脑营销大战[N];中国知识产权报;2006年
9 周雪;华建敏:社保体系建设面临三个突出问题[N];第一财经日报;2008年
10 电脑商报记者 谢涛;英特尔软件携手伙伴进入并行时代[N];电脑商报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978