收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

遗传优化的K均值聚类算法

毕晋芝  
【摘要】: 数据挖掘作为一种能挖掘出隐藏在数据复杂关系背后有价值信息的一种新兴技术,由于其实用性而迅速发展。聚类分析方法是数据挖掘的一个重要研究方向,其作为一种无监督学习方法被广泛应用于各行各业。K均值聚类算法是聚类分析方法中一种非常典型的划分方法,该算法简单、易懂,但是存在诸如对初始中心点敏感,需事先确定聚类数及易陷入局部最优等缺陷。 遗传算法提供了一个全局寻优问题的模型,近年来,越来越多的学者采用遗传算法对K均值聚类算法进行优化,形成K均值遗传算法。该算法针对染色体编码方式、遗传算子及控制参数等方面进行改进,从而实现聚类中心点的优化选取,或最佳聚类数的获取等,力求得到质量较高的聚类结果。 本文在总结前人已取得的研究成果基础上,设计了一种新的遗传优化的K均值聚类算法,该算法利用遗传算法的遗传操作实现了K值的自动调整与中心点的优化选取,并借助遗传算法的全局优化能力有效克服了K均值聚类算法易陷入局部最优的缺点。在将遗传算法引入K均值聚类算法时,对遗传算子进行了如下两方面的改进: (1)适应度函数的构造。 适应度函数的好坏直接影响后续一系列遗传算子的操作。在本文中适应度函数值除优化了聚类中心点的选取外,也解决了聚类数K值需事先确定且在算法执行过程中不能更改的缺陷。将遗传算法引入到K均值算法中,以适应度函数为依据,利用种群中每个个体的适应度值来进行搜索、学习最佳聚类数K值,因此适应度函数的选取与确定将决定K值的选取与优化问题。 (2)变异操作的设计。 本文设计了一种新的变异操作方法,该方法通过对个体适应度函数的求解,实现对于聚类数K值的自动调整,使其能够自动向最佳聚类数靠拢。 最后,在算法的实现上,采用了java程序设计语言与Mysql数据库。实验数据除采用常用的Iris数据集与Glass数据集以外,还对大量电信业务中长途电话使用情况的数据记录做了实际应用分析。经过对这些数据的验证及结果分析,证明了该算法不仅能处理不同维数的数据、具有可伸缩性,而且通过对电信数据的分析,证实该算法具有实用价值,并在此基础上设计了一种基于电信业务聚类分析的模型。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 厍向阳,薛惠锋,高新波;基于障碍物约束的遗传-中心点聚类算法研究[J];系统工程与电子技术;2005年10期
2 厍向阳,彭文祥,薛惠锋;满足二维空间邻接条件的遗传聚类算法研究[J];计算机应用;2005年10期
3 崔志刚;;一种改进的混合遗传聚类算法的数据挖掘技术[J];网络安全技术与应用;2010年03期
4 钱晓东;王煜;王化祥;;基于遗传算法的ART2神经网络数据集优化[J];天津大学学报;2007年12期
5 任江涛;黄焕宇;孙婧昊;印鉴;;基于遗传算法及聚类的基因表达数据特征选择[J];计算机科学;2006年09期
6 贾兆红;唐俊;;一种基于混合遗传算法的聚类方法[J];计算机应用与软件;2008年04期
7 李光宇;;基于改进的CLARANS算法在数据挖掘中的研究[J];中南林业科技大学学报;2010年03期
8 HUNG Chih-Cheng;Minh Pham;KUO Bor-Chen;Tommy L. Coleman;;基于遗传算法的多光谱影像非监督训练分类系统(英文)[J];遥感学报;2007年05期
9 冯少荣;肖文俊;;一种提高DBSCAN聚类算法质量的新方法[J];西安电子科技大学学报;2008年03期
10 于金霞;蔡自兴;段琢华;;一种用于激光雷达特征提取的改进遗传聚类算法[J];模式识别与人工智能;2008年04期
11 厍向阳;薛惠锋;高新波;;基于生长树的遗传聚类算法研究[J];计算机应用研究;2006年07期
12 冯晨;张旭翔;;数据挖掘技术及算法综述[J];电脑知识与技术;2009年13期
13 李亚非;曹长虎;;基于粒子群优化和遗传算法的协同聚类算法[J];计算机工程;2011年16期
14 厍向阳,彭文祥,薛惠锋,李继军;基于GIS的空间聚类算法研究[J];计算机工程与应用;2005年29期
15 贾兆红;贾瑞玉;倪志伟;唐俊;;基于禁忌搜索与遗传算法的案例检索技术[J];计算机技术与发展;2007年04期
16 崔宝珍;王泽兵;潘宏侠;;改进的FCM聚类算法[J];机械管理开发;2010年04期
17 钱光超;贾瑞玉;张然;李龙澍;;基于遗传聚类算法的离群点检测[J];计算机工程与应用;2008年11期
18 李明;王健琨;;基于聚类与遗传算法的Web图像检索[J];计算机工程与设计;2008年15期
19 孙英娟;杨柳;何昆鸟;;属性离散化算法研究[J];长春师范学院学报(人文社会科学版);2009年12期
20 林海;王静;王文涛;马培博;;基于分层处理的无人机任务规划[J];无线电工程;2010年05期
中国重要会议论文全文数据库 前10条
1 汪民乐;高晓光;李勇;;新型遗传模糊C-均值聚类算法及其在导弹目标选择中的应用[A];2007年中国智能自动化会议论文集[C];2007年
2 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
5 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
6 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
7 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
8 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
9 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 娄冬梅;陈明;朱有娜;;一种基于密度的无参数聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
5 施建中;基于模糊聚类的非线性系统辨识研究[D];华北电力大学;2012年
6 李军华;基于知识和多种群进化的遗传算法研究[D];南京航空航天大学;2009年
7 张旭;具有拓扑结构布局优化的理论及算法[D];大连理工大学;2004年
8 廖平;基于遗传算法的形状误差计算研究[D];中南大学;2002年
9 周明;高新技术产业投资环境系统研究[D];西北工业大学;2006年
10 张需溥;小型化微带天线的设计与数值分析[D];上海大学;2004年
中国硕士学位论文全文数据库 前10条
1 毕晋芝;遗传优化的K均值聚类算法[D];太原理工大学;2010年
2 李红;数据挖掘中特征选择与聚类算法研究[D];大连理工大学;2010年
3 杨凌;聚类分析中聚类数的确定问题[D];武汉科技大学;2001年
4 刘静;基于聚类的网络入侵检测的研究[D];太原理工大学;2008年
5 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
6 杜晨阳;分布式聚类算法研究与应用[D];浙江大学;2011年
7 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
8 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
9 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
10 洪亮亮;基于遗传算法和粗糙集的聚类算法研究[D];长沙理工大学;2011年
中国重要报纸全文数据库 前10条
1 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年
2 程爱娟;旅行推销员问题(TSP)的人工智能解法及其应用[N];新疆科技报(汉);2001年
3 中国科技大学计算机系 邢方亮;计算智能百花齐放[N];计算机世界;2003年
4 ;视频数据中挖“宝”[N];计算机世界;2002年
5 包家庆;IDS五大发展趋势[N];网络世界;2002年
6 郭明波;来自蝙蝠的启发[N];北京科技报;2001年
7 易水;IT新词集锦[N];计算机世界;2003年
8 李磊;让电子政务更聪明[N];计算机世界;2001年
9 高澜庆;矿山企盼智能化[N];中国矿业报;2000年
10 顾正华 唐洪武 肖洋 河海大学水利水电工程学院 李云 南京水利科学研究院水工研究所;水流智能模拟大步走来[N];中国水利报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978