收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

一种改进的k_means聚类算法研究

刘振广  
【摘要】:随着网络的快速发展和信息化技术的不断进步,各种数据以惊人的速度膨胀,如何从这些数据中找到有用信息,并对这些数据和信息进行分类,变得日益迫切。数据挖掘技术的出现,使得大量数据处理成为可能。聚类是一项重要数据挖掘技术,已成为研究热点之一。 本文主要针对k_means算法对孤立点敏感和对初始点选择敏感的局限性,对k_means算法的聚类过程提出两点改进。首先,对k_means算法中孤立点检测问题进行深入研究,提出了基于网格的数据预处理算法。该方法对数据集网格划分之后,进行孤立点的检测。其次,分析k_means算法的初始点选择,提出了基于平均点的初始点选择算法。该方法是在基于网格的数据预处理算法基础之上,直接在网格中进行初始点的选择,使初始点更加合理和接近实际的聚类中心。最后,在k_means算法的聚类过程中,应用两个算法进行孤立点处理和初始点选择,给出了改进的k_means算法。 本文通过实验对改进的k_means进行验证和分析,实验结果表明改进的k_means算法在一定程度上提高了聚类的准确率。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

知网文化
【参考文献】
中国期刊全文数据库 前10条
1 乔小妮;张明新;史变霞;;一种基于密度的K-means算法[J];电脑开发与应用;2008年10期
2 连凤娜;吴锦林;唐琦;;一种改进的K-means聚类算法[J];电脑与信息技术;2008年01期
3 刘强;吴京慧;;优化初始聚类中心的K-means算法[J];信息技术;2009年02期
4 孙秀娟;刘希玉;;基于初始中心优化的遗传K-means聚类新算法[J];计算机工程与应用;2008年23期
5 张忠平;王爱杰;陈丽萍;;一种基于广度优先搜索的K-means初始化算法[J];计算机工程与应用;2008年27期
6 程昳;苗夺谦;冯琴荣;;基于模糊粗糙集的粒度计算[J];计算机科学;2007年07期
7 孙士保;秦克云;;改进的k-平均聚类算法研究[J];计算机工程;2007年13期
8 陆声链,林士敏;基于距离的孤立点检测及其应用[J];计算机与数字工程;2004年05期
9 郭明;丁华福;;基于SOM网和K-means的聚类算法[J];计算机与数字工程;2008年09期
10 李伟;黄颖;;文本聚类算法的比较[J];科技情报开发与经济;2006年22期
【共引文献】
中国期刊全文数据库 前10条
1 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
2 高志明,关岩,于洪梅,吴秀红,李井会;人工神经网络在化学中的应用进展[J];鞍山钢铁学院学报;2000年03期
3 万春红;邵超;;一种新的基于自组织映射的流形学习算法[J];北京交通大学学报;2009年06期
4 王新军;卿华;姚娇艳;;流水线加工调度问题的神经网络算法[J];兵工自动化;2011年10期
5 陶兰;;Kohonen神经网络模型在柑桔区域规划专家系统中的应用[J];北京农业工程大学学报;1993年01期
6 杜大鹏;穆志纯;陈静;方新;;一种用于模拟汉字认知过程的多层自组织神经网络[J];北京科技大学学报;2007年01期
7 许俊刚,柯有安;自组织神经网络雷达目标识别的研究[J];北京理工大学学报;1992年03期
8 黄儒乐;吴江;韩宁;;林火烟雾图像自动识别中的模式分类器选择[J];北京林业大学学报;2012年01期
9 黄美璇;;基于聚类分析的网络舆情监控系统的设计[J];宝鸡文理学院学报(自然科学版);2011年04期
10 宋殿霞;王艳;邹光辉;;空间数据挖掘聚类算法研究[J];滨州学院学报;2006年06期
中国重要会议论文全文数据库 前10条
1 贾允毅;胥布工;王世华;刘步春;;端对端网络时钟漂移补偿算法研究及其实现[A];第二十六届中国控制会议论文集[C];2007年
2 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
3 ;A Neural Network Algorithm for the (m,d)-Coloring Problem of a Graph[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 ;A Semi-supervised Clustering Algorithm Based on Rough Reduction[A];2009中国控制与决策会议论文集(3)[C];2009年
5 孙祥;庆承松;;大学生就业区域流向成因研究[A];中国企业运筹学[C];2009年
6 蔡中华;;自组织映射(SOM)在研究地区产业结构聚类分析的应用[A];第九届中国青年信息与管理学者大会论文集[C];2007年
7 房伟;逄玉俊;路爽;;基于相异度系数和的孤立点挖掘应用与研究[A];2006“数学技术应用科学”[C];2006年
8 ;A hybrid of fuzzy-link clustering and classification for seismic data[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
9 王洪波;刘长滨;;基于聚类分析的中国建筑节能区域划分研究[A];第四届中国科学学与科技政策研究会学术年会论文集(Ⅰ)[C];2008年
10 梁霞;梁循;;互联网金融文本信息关键词形态挖掘[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孙鹏飞;基于计算智能技术的蛋白质结构预测方法研究[D];哈尔滨工程大学;2010年
2 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
3 李曼荔;求解组合优化问题的神经计算方法[D];电子科技大学;2010年
4 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
5 吕琳;天然气水合物(地球物理属性)的神经网络识别方法及软件开发[D];吉林大学;2011年
6 雷迎科;流形学习算法及其应用研究[D];中国科学技术大学;2011年
7 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
8 梁涛;批处理过程生产调度自组织优化方法[D];山东大学;2011年
9 王飞;入侵检测分类器设计及其融合技术研究[D];南京理工大学;2011年
10 姜建华;虚拟企业环境下订单驱动的任务管理机制研究与实践[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 高兆梓;基于专利分析的竞争对手分类系统研究[D];山东科技大学;2010年
2 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
3 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
4 Rojanakat Payomrat;基于神经网络的双目视差估计[D];哈尔滨工程大学;2010年
5 骆永健;基于聚类的数据流异常检测算法的研究[D];哈尔滨工程大学;2010年
6 辛涛;基于混合神经网络的视频序列压缩与加密算法研究[D];大连理工大学;2010年
7 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
8 孙红艳;改进的小生境遗传聚类算法应用研究[D];辽宁工程技术大学;2010年
9 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
10 王冬秀;基于衰减窗口与剪枝链表树的高维数据流聚类算法研究[D];华东师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王红睿;赵黎明;裴剑;;均衡化的改进K均值聚类法[J];吉林大学学报(信息科学版);2006年02期
2 姜园,张朝阳,仇佩亮,周东方;用于数据挖掘的聚类算法[J];电子与信息学报;2005年04期
3 金微;陈慧萍;;基于分层聚类的k-means算法[J];河海大学常州分校学报;2007年01期
4 赵锋;薛惠锋;王伟;;基于复合形遗传算法的K-means优化聚类方法[J];航空计算技术;2006年05期
5 田地;张西芝;刘小航;;一种基于扩展的K-means聚类算法[J];河南教育学院学报(自然科学版);2007年02期
6 周水庚,周傲英,曹晶;基于数据分区的DBSCAN算法[J];计算机研究与发展;2000年10期
7 王国胤;Rough集理论在不完备信息系统中的扩充[J];计算机研究与发展;2002年10期
8 刘少辉,胡斐,贾自艳,史忠植;一种基于Rough集的层次聚类算法[J];计算机研究与发展;2004年04期
9 张猛,王大玲,于戈;一种基于自动阈值发现的文本聚类方法[J];计算机研究与发展;2004年10期
10 刘立平,孟志青;一种选取初始聚类中心的方法[J];计算机工程与应用;2004年08期
中国博士学位论文全文数据库 前1条
1 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
中国硕士学位论文全文数据库 前1条
1 金微;基于遗传算法的k-means聚类方法的研究[D];河海大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 夏师;梁碧珍;陆月然;罗明山;;聚类分析研究进展[J];现代计算机(专业版);2009年03期
2 沈谦;王涛;王上飞;;多级模糊协方差聚类算法[J];模式识别与人工智能;2002年03期
3 吴贞珍;黄建华;;DBSCAN聚类算法在异常检测中的应用[J];计算机安全;2007年08期
4 姜浩;崔荣一;;一种基于粒子群算法的聚类算法[J];延边大学学报(自然科学版);2009年01期
5 印桂生;于翔;宁慧;;一种基于网格的增量聚类算法[J];计算机应用研究;2009年06期
6 张伟;陈春燕;;一种基于概率密度的数据流聚类算法[J];计算机应用;2007年04期
7 于翔;印桂生;;数据流的不规则网格增量聚类算法[J];哈尔滨工程大学学报;2008年08期
8 蒋庆丰;李梓;程晓旭;;K-Means聚类算法研究及图形演示的实现[J];信息技术;2010年03期
9 谷垒;王雷;;一种基于慢启动模型的快速自适应聚类算法[J];微计算机信息;2010年36期
10 蔡妮明;王翰虎;陈梅;;一种基于滑动窗口的流数据聚类算法[J];计算机技术与发展;2011年01期
中国重要会议论文全文数据库 前10条
1 李文超;周勇;夏士雄;;一种新的基于层次和K-means方法的聚类算法[A];第二十六届中国控制会议论文集[C];2007年
2 ;A Genetic Algorithm Based K-means for Time Series Clustering[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 陈磊;胡佳敏;严华;;K-means算法在散货船代货运系统中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 ;A Novel Supervised Multi-model Modeling Method Based on k-means Clustering[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
5 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
6 ;A powerful denoising method based on non-local means filter for cryo-electron microscopic images[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年
7 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 周皓峰;袁晴晴;程尊平;施伯乐;;PHC:一个基于分层的快速聚类算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
10 汪民乐;高晓光;李勇;;新型遗传模糊C-均值聚类算法及其在导弹目标选择中的应用[A];2007年中国智能自动化会议论文集[C];2007年
中国重要报纸全文数据库 前7条
1 易水;新词集锦[N];计算机世界;2002年
2 宋养琰 刘肖;中国企业的战略危机[N];厂长经理日报;2000年
3 李明;漫话新旧《FIP专题集邮展品评审专用规则》[N];中国邮政报;2000年
4 ;视频数据中挖“宝”[N];计算机世界;2002年
5 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
6 本报记者 于翔;多元管理防范金融风险[N];网络世界;2010年
7 山东省青岛市工商局 郝虹;应重视数据资源挖掘及数据分析[N];中国工商报;2010年
中国博士学位论文全文数据库 前10条
1 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
2 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
3 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
4 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
5 郑自然;基于智能计算的计算机辅助建模方法研究[D];山东师范大学;2010年
6 彭柳青;高维高噪声数据聚类中关键问题研究[D];西安电子科技大学;2011年
7 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
8 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
9 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
10 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘振广;一种改进的k_means聚类算法研究[D];哈尔滨工程大学;2010年
2 史秀岭;K-means聚类优化算法的研究[D];长沙理工大学;2011年
3 赵睿;扩散距离下的Kernel K-means聚类算法的改进[D];清华大学;2011年
4 张娟;基于半监督佳点集和Leader的K-means聚类算法研究[D];安徽大学;2011年
5 尚海昆;K-means聚类算法的研究[D];华北电力大学(河北);2009年
6 段炬霞;K-means算法的改进及其在地质勘探地震数据分析中的应用[D];北京邮电大学;2012年
7 谭本军;基于K-means聚类融合算法及在移动客户细分中的应用[D];中南大学;2010年
8 徐勇;分析型CRM中聚类算法的研究[D];兰州理工大学;2010年
9 张晓彩;基于K-means的中文文本精确聚类算法研究[D];燕山大学;2012年
10 刘建国;改进的K-means算法及其在采油数据分析中的应用[D];北京邮电大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026