收藏本站
收藏 | 论文排版

基于MapReduce的海量数据K-means聚类算法研究

崔晓丽  
【摘要】:聚类是数据挖掘中非常热门的研究方向。聚类是将数据对象划分为不同的簇的过程,其目的是使同簇中对象具有较高相似度,不同簇间对象相似度较低。随着信息技术的快速发展与数据量的不断扩张,人们对聚类算法的效率、可靠性以及可扩展性的要求逐渐提高,海量数据聚类变得尤为重要。在众多聚类算法中,基于划分的K-means聚类算法因其简单性,一直深受欢迎。本文主要研究在海量数据环境下K-means聚类的性能优化问题。 为满足海量数据的处理需求,在单机处理能力有限的情况下,分布式计算模型的应用成为大势所趋。很多学者借助MapReduce并行编程框架来进行K-means聚类计算,在计算性能方面有了一定的提高。但是,在利用MapReduce进行K-means计算时会有多次任务迭代,每次迭代时Mapper均需从HDFS文件系统上读取原始数据,同时所有数据在整个集群网络中洗牌,传送给对应的Reducer,这导致了高昂的I/O和网络开销,在目前并没有被很好地解决。 针对MapReduce处理K-means聚类时的瓶颈,本文提出了一种基于MapReduce的海量数据快速K-means计算模型,通过随机均匀概率抽样和迭代抽样方法减少数据量,在MapReduce单个任务内部进行迭代计算,避免了MapReduce在处理时任务重复启动、海量数据重复读取和多次网络洗牌的弊端,从而降低I/O和网络开销,实现快速聚类,降低数据集中孤立点对于聚类结果的影响。同时,本文针对计算模型提出了两种不同的中间数据合并策略WMC和DMC,分别从不同方面提高了聚类结果的准确度。在集群上的大量实验表明本文提出的方法能够有效提高海量数据K-means聚类的效率,优化算法的健壮性和可扩展性强,同时能够降低数据集中异常点对于聚类结果的影响。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 宗瑜;金萍;李明楚;;BK-means:骨架初始解K-means[J];计算机工程与应用;2009年14期
2 韩凌波;;一种新的K-means最佳聚类数确定方法[J];现代计算机;2013年30期
3 袁文铎;;基于改进k-means的案例检索优化算法[J];计算机测量与控制;2013年07期
4 李红岩;胡林林;王江波;周红芳;;基于K-means的最佳聚类数确定方法研究[J];电脑知识与技术;2014年01期
5 王勇;唐靖;饶勤菲;袁巢燕;;高效率的K-means最佳聚类数确定算法[J];计算机应用;2014年05期
6 吕强,俞金寿;基于混合遗传算法的K-Means最优聚类算法[J];华东理工大学学报(自然科学版);2005年02期
7 边鹏;赵妍;苏玉召;;一种适合检索词推荐的K-means算法最佳聚类数确定方法[J];图书情报工作;2012年04期
8 赵大伟;肖周芳;;一种改进的基于密度和样本数量的K-means算法[J];科技信息;2008年28期
9 李灿灿;王宝;王静;李丰果;;基于K-means聚类的植物叶片图像叶脉提取[J];农业工程学报;2012年17期
10 曾旭;司马宇;;K-Means算法在计算机等级考试成绩分析中的应用[J];软件导刊;2012年11期
11 田生文;王伊蕾;李阿丽;;一种应用复杂网络特征的K-means初始化方法[J];计算机工程与应用;2010年06期
12 高继森;赵杰;张忠辅;张晶;;增强型K-means聚类算法在入侵检测中的应用[J];微计算机信息;2008年09期
13 张建民;姚亮;胡学钢;;一种面向数据缺失问题的K-means改进算法[J];合肥工业大学学报(自然科学版);2008年09期
14 胡朝清;;K-means算法研究[J];长春工业大学学报(自然科学版);2014年02期
15 赵伟;张姝;李文辉;;改进K-means的空间聚类算法[J];计算机应用研究;2008年07期
16 汪嘉;姜明富;李友国;;一种基于改进的K-Means算法的聚类分析方法[J];农业网络信息;2009年10期
17 张予垚;黄霞;史书畅;陈学东;;K-means聚类算法在网游客户价值分类中的应用[J];科技传播;2014年08期
18 王建新;毕利;;基于信息熵和改进的K-means算法的客户细分[J];华南金融电脑;2009年04期
19 张科泽;杨鹤标;沈项军;蒋中秋;;基于节点数据密度的分布式K-means聚类算法研究[J];计算机应用研究;2011年10期
20 熊志斌;朱剑锋;王冬;;K-means聚类算法的研究和应用[J];电脑编程技巧与维护;2014年08期
中国重要会议论文全文数据库 前6条
1 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
2 陈磊;胡佳敏;严华;;K-means算法在散货船代货运系统中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 郑建军;甘仞初;贺跃;毕思飞;;一种基于k-means的聚类集成方法[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
4 张望;王辉;;个性化服务中的并行K-Means聚类算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
5 江华;王翰虎;陈梅;;一种基于K-means聚类分组的P2P超结点模型[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
6 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
中国硕士学位论文全文数据库 前9条
1 梁云昭;基于K-means的围棋特征提取方法研究[D];北京理工大学;2015年
2 于洋洋;基于并行K-MEANS聚类分析的社群发现算法研究[D];东北大学;2012年
3 崔晓丽;基于MapReduce的海量数据K-means聚类算法研究[D];大连理工大学;2014年
4 高存彬;基于K-Means聚类法的水团划分算法和可视化研究[D];中国海洋大学;2008年
5 刘建国;改进的K-means算法及其在采油数据分析中的应用[D];北京邮电大学;2010年
6 陈翠卓;移动平台下基于K-means的租房信息聚类算法研究与实现[D];华中师范大学;2014年
7 高利军;基于K-Means聚类算法的智能化站点设计与实现[D];河南科技大学;2007年
8 时英晋;面向网页内容的K-means聚类算法的研究[D];东北大学;2011年
9 张立;基于新闻评论数据的K-means聚类算法的研究[D];太原理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978