收藏本站
《华东师范大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于遗传编程的数据挖掘分类和聚类算法的研究与实践

俞乐克  
【摘要】: 随着人们生产和搜集数据的能力大幅度提高,迫切需要找到从现有数据库系统/广域网的大量数据中提取知识的手段。然而,目前人们分析数据、获取知识的能力还不能与现有的组织、存储和操作数据的技术相媲美。为了解决这个问题,产生了基于数据库与数据仓库系统的数据挖掘方法与技术。数据挖掘可以看作是信息技术自然演化的结果,从数据收集和数据库的创建,到数据管理,再到高级数据分析。 分类和聚类是数据挖掘的两个重要过程,针对这两个过程,人们已经提出了许多算法,如:贝叶斯分类、基于规则的分类、关联分类、k均值聚类、层次聚类等。这些传统的方法中普遍对用户的相关领域知识有一定的要求,用户对参数的输入很大程度上影响了算法的结果。为了改进这个问题,使数据挖掘任务能够自动的进行,人们提出了基于进化算法的数据挖掘算法。 遗传编程是进化算法的一个分支,其主要思想来源于生物的进化。NilsAall Baricelli在1954年首先提出了遗传编程。1980年,Stephen F.Smith发表了关于遗传编程的实验结果。Nichael L.Cramer和Jurgen Schmidhuber分别于1985年和1987年发表论文提出了现代进化编程。John R.Koza对遗传编程作出了重要的拓展,并在1992年发表论文指出,遗传编程应该被视为遗传算法的一个分支而不是特例,John R.Koza被认为是遗传编程的先驱。 文中介绍了数据挖掘中分类和聚类的相关算法,并针对这些算法作了系统的分析,指出了这些算法的优势和不足。同时,文中对遗传编程进行了讨论,详细地阐述了遗传编程的相关理论、方法以及技术。在此基础上提出了基于遗传编程的分类与聚类算法。在分类算法中,一个簇用一个逻辑公式表示,这个逻辑公式则由谓词构成。每一个遗传编程个体则将该逻辑公式编码为树形结构。本文提出的聚类算法基于层次聚类的思想,首先将数据集划分为若干个簇,然后对簇进行合并。但是层次聚类的一个缺点是一旦某一部做出决定,那么以后就不能更改。这导致了聚类结果有很大的偶然性。同时,一开始划分的若干个簇并不一定合适。因此,引入遗传变程。将一种聚类方案表示为一个个体,对若干个个体进行评估后,进行一系列遗传操作,产生下一代个体。经过数代,最终得出聚类方案。 同时,文中对数据进行了实验,将实验结果与传统的聚类算法相比较,验证了基于遗传编程的数据分类和聚类算法在结果上相对于传统算法有较大的提升。最后,文中提出了该思想存在的不足和进一步改进的方向。
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.52;TP18

【引证文献】
中国硕士学位论文全文数据库 前1条
1 郑盼丽;基于文法引导遗传编程的分类算法的研究与应用[D];湖南大学;2012年
【参考文献】
中国博士学位论文全文数据库 前1条
1 左劼;基因表达式编程核心技术研究[D];四川大学;2004年
【共引文献】
中国博士学位论文全文数据库 前4条
1 邓丽;舱室人机界面布局设计与评估优化方法研究[D];西北工业大学;2016年
2 朱耀春;基于基因表达式编程技术的非线性系统辨识研究[D];华北电力大学(北京);2008年
3 高飞;混沌系统参数估计与控制的演化算法研究[D];武汉理工大学;2006年
4 元昌安;基于GEP函数发现的智能模型库关键技术研究[D];四川大学;2006年
【同被引文献】
中国硕士学位论文全文数据库 前10条
1 孟腊梅;基于遗传规划的树皮纹理图像识别方法[D];河北农业大学;2011年
2 王璐;遗传算法与遗传规划的对比性研究[D];吉林大学;2011年
3 余小双;遗传算法及其在数据挖掘中的应用研究[D];武汉纺织大学;2010年
4 张峰;基于遗传编程的意见检索技术研究与实现[D];浙江大学;2010年
5 段坤;服装风格特征数字化及风格规则挖掘方法研究与实现[D];东华大学;2010年
6 俞乐克;基于遗传编程的数据挖掘分类和聚类算法的研究与实践[D];华东师范大学;2010年
7 肖秀斌;基于遗传规划物体探测的研究[D];河北农业大学;2009年
8 贾光峰;基于多表达式编程的神经网络自动优化方法及其应用研究[D];济南大学;2009年
9 李秀玲;图像除噪进化滤波器的设计[D];中国科学技术大学;2009年
10 王萌;遗传规划多分类系统的实现[D];河北农业大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 黄源,张福炎;数据挖掘及其技术实现[J];计算机应用与软件;2001年12期
2 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期
3 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期
4 刘明晶;数据挖掘[J];华南金融电脑;2001年04期
5 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期
6 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期
7 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期
8 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期
9 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期
10 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期
中国重要会议论文全文数据库 前10条
1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年
3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年
4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年
5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年
6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年
7 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年
8 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年
9 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年
10 蓝永豪(LAM Wing Ho);基于数据挖掘技术分析当代中医名家痤疮验方经验研究[D];南京中医药大学;2016年
中国硕士学位论文全文数据库 前10条
1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年
2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年
3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年
4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年
5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年
6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年
7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年
8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年
9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年
10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026