收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

k-means聚类算法的改进研究及其应用

王康  
【摘要】:数据挖掘是为使人们能够充分理解和应用隐藏在数据中的有效信息和知识而发展起来的一门新兴技术。聚类分析作为数据挖掘中的一种重要无监督模式,大致可分为以下几类方法:基于划分的聚类方法、基于层次的聚类方法、基于网格的聚类方法、基于密度的聚类方法等。k--means算法是一种基于划分的聚类算法,由于易行、高效等优点,在遥感领域得到广泛应用,但是随着遥感技术的发展,遥感图像中包含的数据量越来越大,并且k-means聚类算法易受初始中心点的制约,因此,本文在对k-means聚类算法分析的基础上,针对k-means聚类算法所存在的问题,对其进行了相应的改进,主要集中在以下两个方面: (1)针对k-means聚类算法在处理大规模数据时,会消耗较大的内存资源和计算成本,以至无法进行有效聚类的问题,提出一种采用MapReduce编程模型实现并行k-means聚类的方法。该方法首先将大规模数据分割成块,然后分配到集群中的各个子节点上,对样本数据进行聚类后,同步更新聚类中心再进行下一次聚类,直到聚类中心不再变化。通过UCI数据集中的4组数据仿真实验,验证并行k-means算法的有效性,并采用数据规模较大的遥感数据验证该方法对于遥感图像处理的有效性,同时测试并行集群的加速比和可扩展性。 (2)针对k-means算法受初始聚类中心和异常数据的制约,易出现不稳定聚类结果的问题,提出一种基于差分进化的加权k-means算法。该算法首先基于差分进化算法,提出一种新的获得更好初始聚类中心的方法;然后根据样本对聚类分析影响的不同程度而引入权值,设计一种加权的欧氏距离,加大数据之间的区分程度,以减少异常数据等不确定因素带来的不良影响,并得到稳定的聚类结果,提高聚类精度。通过UCI数据集中的4组数据验证所提算法具有较稳定的聚类结果,同时将该方法应用到实际遥感图像上进行仿真实验,验证所提算法可较好地处理遥感图像数据,可将地物种类进行合理划分。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 蔡元萃;陈立潮;;聚类算法研究综述[J];科技情报开发与经济;2007年01期
2 杨博;刘大有;金弟;马海宾;;复杂网络聚类方法[J];软件学报;2009年01期
3 陈梅兰;基于网格和密度聚类算法研究[J];计算机与现代化;2005年02期
4 闻扬,苑春法,黄昌宁;基于搭配对的汉语形容词-名词聚类[J];中文信息学报;2000年06期
5 王伟东,芦金婵,张讲社;基于视觉原理的密度聚类算法[J];工程数学学报;2005年02期
6 彭京;唐常杰;程温泉;石葆梅;乔少杰;;一种基于层次距离计算的聚类算法[J];计算机学报;2007年05期
7 陈钢,冯志勇,金辉;基于GT编码的零件聚类树的建立[J];中国制造业信息化;2003年06期
8 曹慧;;一种基于聚类的多数据库分类方法设计[J];网络安全技术与应用;2010年06期
9 刘芳,何飞;一种基于聚类树的增量式数据清洗算法[J];华中科技大学学报(自然科学版);2005年03期
10 曾广周;一个基于Gabrial图的聚类方法[J];信息与控制;1988年03期
11 周涛;陆惠玲;;数据挖掘中聚类算法研究进展[J];计算机工程与应用;2012年12期
12 陈黎飞;郭躬德;;属性加权的类属型数据非模聚类[J];软件学报;2013年11期
13 黄金花;;聚类算法的分析与比较[J];科技信息(科学教研);2008年13期
14 曾超群;李文科;张刚华;;一种改进的k-中心聚类算法研究[J];电脑与信息技术;2010年02期
15 王建会,申展,胡运发;一种实用高效的聚类算法[J];软件学报;2004年05期
16 谢坤武;陈世强;毕晓玲;;关联规则发现中的聚类方法[J];计算机科学;2007年08期
17 修宇;王士同;吴锡生;胡德文;;方向相似性聚类方法DSCM[J];计算机研究与发展;2006年08期
18 付春梅;刘俊宁;;Kmeans与系统聚类法结合在脑电图中的应用[J];科技信息(学术研究);2007年29期
19 谢明霞;郭建忠;陈科;;改进k中值聚类及其应用[J];烟台大学学报(自然科学与工程版);2010年03期
20 白雪;李江龙;;一种基于用户浏览矩阵的聚类算法[J];西北民族大学学报(自然科学版);2006年02期
中国重要会议论文全文数据库 前8条
1 钱卫宁;钱海蕾;周傲英;;构造准确的多粒度聚类树:一种交互式的方法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 钱卫宁;钱海蕾;周傲英;;聚类树合并——聚类超大规模数据库[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 万代红;齐明;万晓红;;分类技术DSCM聚类算法的C语言实现[A];增强自主创新能力 促进吉林经济发展——启明杯·吉林省第四届科学技术学术年会论文集(上册)[C];2006年
4 钱海蕾;钱卫宁;周傲英;;对于聚合聚类终止条件的研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 任家东;孟丽丽;张冬梅;;一种基于网格的改进的K-Means聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 周皓峰;袁晴晴;程尊平;施伯乐;;PHC:一个基于分层的快速聚类算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 王仲君;莫春玲;;视觉原理的FCM聚类算法在复杂网络中的应用[A];2006全国复杂网络学术会议论文集[C];2006年
8 郑君君;李新光;祝一薇;刘建军;夏胜平;谭立球;;海量图像集中K近邻求解的高效算法[A];第十五届全国图象图形学学术会议论文集[C];2010年
中国博士学位论文全文数据库 前4条
1 晏华;交易数据的聚类分析[D];电子科技大学;2008年
2 王娜;基于客观聚类的模糊建模方法研究[D];上海交通大学;2009年
3 罗会兰;聚类集成关键技术研究[D];浙江大学;2007年
4 肖宇;聚类分析及其在图像处理中的应用[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈衡岳;聚类分析及聚类结果评估算法研究[D];东北大学;2006年
2 陈武;多类标聚类树分类方法优化及并行化实现[D];哈尔滨工业大学;2013年
3 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年
4 鲁垿铫;基于协方差的选择性聚类集成研究[D];西南交通大学;2013年
5 别世福;面向文本流的聚类树分类方法研究[D];哈尔滨工业大学;2013年
6 翁芳菲;聚类融合算法研究及其应用[D];厦门大学;2008年
7 徐军莉;分布式聚类算法研究及其应用[D];南昌大学;2009年
8 张绪青;基于图模型的聚类算法研究[D];浙江大学;2008年
9 臧少杰;基于视觉的聚类算法研究及应用[D];山东师范大学;2008年
10 李源;量化双向图的聚类方法研究及其应用[D];华中科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978