收藏本站
《浙江大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

并行聚类算法在MapReduce上的实现

温程  
【摘要】:互联网上的数据以海量的规模存在并迅速增长,从海量的数据中挖掘出价值含量高的信息是技术上的迫切要求。聚类算法作为一种非监督学习的方法,是包括数据挖掘、机器学习、模式识别、图像分析等诸多领域数据统计分析的一种常用技术。传统的串行式的聚类算法存在着两个问题,已经难以满足实际应用的需求:一是聚类的速度不快,效率不是很高;二是在面对规模比较大的数据时,受制于内存容量的限制,往往不能有效地运行。 Google提出的MapReduce概念是当前比较流行的分布式计算框架。本文研究两种在MapReduce上实现的聚类算法:并行化谱聚类和并行化AP聚类。分别实现这两种算法在10台机器组成的Hadoop集群上分布式计算。 并行化谱聚类算法的策略是计算相似矩阵和稀疏化时按数据点标识切分;计算特征向量时把拉普拉斯矩阵存到分布式文件系统HDFS上,采用分布式Lanczos运算,并行计算得到特征向量;最后对特征向量的转置矩阵采用并行K-means聚类得到聚类结果。通过对算法的每一步采用不同的并行策略,使得整个算法在速度上获得线性增长。 并行化AP聚类的策略是先把吸引度矩阵和归属度矩阵分布式存储在HBase上,每次迭代中的吸引度矩阵和归属度矩阵的计算按行分割,使其矩阵值的运算按行分布在多台机器上运算。随着机器的增加,以线性的增长速度加快算法的运算。 通过在Corel图像集上做实验,分析比较两种并行聚类算法在MapReduce框架上的性能和聚类效果,从而为上面提到的两个聚类问题(“效率”和“有效”)的解决提供思路。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 许剑峰,林嘉宜,黎绍发;一种基于中心对称性的聚类算法[J];计算机工程与设计;2003年05期
2 李晓莉,陈雪;基于模式识别聚类思想的PON ODN规划设计[J];光通信技术;2003年12期
3 张彩虹,王春才,颜雁;医保决策支持系统中的聚类算法[J];长春理工大学学报;2004年04期
4 史兴键,李伟华,王文奇;基于优化聚类算法的安全审计模型[J];计算机工程与应用;2005年17期
5 周如旗;个性化数据聚类的属性坐标分析法[J];电脑与信息技术;2005年03期
6 潘磊,吴小俊,尤媛媛;基于聚类的视频镜头分割和关键帧提取[J];红外与激光工程;2005年03期
7 张永梅,韩焱,张建华;一种有效聚类算法的研究和实现[J];计算机应用;2005年07期
8 叶菲,罗景青;一种基于BFSN聚类的多参数综合分选算法[J];雷达与对抗;2005年02期
9 严馨,周丽华,陈克平,徐广义;一种改进的带障碍的基于密度和网格的聚类算法[J];计算机应用;2005年08期
10 吕昱;程代杰;;基于SOM的市场细分研究[J];计算机科学;2005年12期
中国重要会议论文全文数据库 前10条
1 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
3 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
5 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
6 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
中国重要报纸全文数据库 前5条
1 刘琦;MapReduce:亚马逊云服务再添新援[N];中国计算机报;2009年
2 《网络世界》记者 周源;Platform MapReduce:专注企业级用户[N];网络世界;2011年
3 ;视频数据中挖“宝”[N];计算机世界;2002年
4 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
5 本报记者 于翔;多元管理防范金融风险[N];网络世界;2010年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 冀进朝;针对多维混合属性数据的聚类算法研究[D];吉林大学;2013年
5 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
6 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
7 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
8 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
9 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年
10 潘鸿飞;形状特征描述及聚类算法研究[D];安徽大学;2011年
中国硕士学位论文全文数据库 前10条
1 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
2 杜晨阳;分布式聚类算法研究与应用[D];浙江大学;2011年
3 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
4 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
5 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
6 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
7 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
8 王帆;基于优化目标可调控的免疫聚类算法的研究[D];太原理工大学;2010年
9 李长进;基于蚁群算法的混合聚类算法研究[D];中国石油大学;2010年
10 何国雄;基于MapReduce的图聚类算法的研究与实现[D];湖南大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026