收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于遗传算法的决策树优化算法研究

张冬冬  
【摘要】:随着网络技术和数据库管理系统的快速发展,不同领域的企业内部都积累了海量的数据,这使得以往的数据分析工具和技术已经无法满足数据信息处理的需求,进而造成数据资源的巨大浪费。于是如何寻找这些数据中所存在的巨大信息和知识,为企业所用,成为人们关注的新视角。数据挖掘就是自动发现海量数据中隐含的、有潜在用途知识的一种新技术。其中,分类和预测是一种重要的数据挖掘研究任务。 目前,决策树算法以其分类的准确率高、速度快、分类规则易于理解而作为数据挖掘分类技术中最常用的方法,评价决策树性能好坏主要取决于决策树模型分类预测的准确率和复杂度。C4.5作为经典的决策树分类算法,具有很好的分类精度(准确率),但是由于其在树的构造过程中采用贪心算法,因此构造的决策树往往存在过度拟合,规模过大等缺陷。而遗传算法是一种全局优化的智能搜索算法,具有潜在的并行性和可扩展性,容易与其他算法相结合。因而,将遗传算法组合应用到决策树分类算法C4.5中,通过两种不同的思路对决策树进行优化: (1)通过深入分析决策树经典算法C4.5的基本原理,总结出该算法在平衡决策树的分类精度和规模控制等方面的不足,从实用的角度提出了在构建决策树时应权衡好决策树的分类精度和树的规模。针对遗传算法具有搜索全局最优的特点,第四章将遗传算法直接用于决策树的优化,由于C4.5算法生成的决策树分类精度还是较高的,则先利用C4.5算法生成初始的决策树种群,可以有效地避免遗传算法刚开始盲目的搜索,但由于树的不易编码性,于是将初始种群中的决策树转换成相应的规则集,然后对规则集进行编码,通过设定适当的适应度函数和遗传操作,从而得到优化后的决策树。 (2)在现实生活中,数据集中的属性对分类问题并不都是有效的,有些可能是不相关、冗余的属性,因而在数据集进行分类之前,对属性集进行合理的约简具有很好的研究价值。于是第五章提出利用遗传算法的全局寻优能力首先对数据的属性集进行约简,借助粗糙集理论对适应度函数进行合理的构造,从而得到约简的分类属性组合,然后对约简后的属性集再利用经典的C4.5分类算法构造相应的决策树,从而得到遗传属性约简后相应的决策树。 最后,将以上两种优化方案分别通过天气样本数据集和经典的分类UCI数据集进行测试,针对决策树分类的准确率、规则数目(叶子结点的个数)、分类属性的个数等方面,通过和直接利用C4.5算法构造的决策树进行比较。实验结果表明,在一定的条件下,遗传优化的决策树算法在不降低决策树分类精度的前提下,有效的减小了树的规模,进而增加了分类规则的可读性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 苑进,孙忠林,刘雪美;改进遗传算法在齿轮减速器优化中的应用[J];山东科技大学学报(自然科学版);2001年04期
2 刘雅琴,迟洪钦;最优合并构成的有序遗传算法[J];上海师范大学学报(自然科学版);2001年04期
3 程锦松;求多项式全部根的遗传算法[J];微机发展;2001年01期
4 程锦松,刘锋;基于分布理论和遗传算法的多项式求根算法[J];微机发展;2001年06期
5 周林,娄寿春,赵杰;基于遗传算法的目标优化分配模型[J];系统仿真学报;2001年03期
6 赵胜利;李书全;刘燕;刘永建;田伟;;用遗传算法确定鲍罗米公式中的系数A、B值[J];河北农业大学学报;2002年03期
7 许世刚,高新陵;分流机制遗传算法研究[J];系统工程与电子技术;2002年07期
8 孙进平 ,吴瑞明 ,翟瑞红 ,刘忠武;基于遗传算法的工艺决策模式的探索[J];现代制造工程;2002年01期
9 胡静,陈恩红,王上飞,王熙法;交互式遗传算法中收敛性及用户评估质量的提高[J];中国科学技术大学学报;2002年02期
10 吴青萍;一种新的优化方法——遗传算法原理及其应用[J];常州信息职业技术学院学报;2002年02期
11 李碧,雍正正;一种改进的基于遗传算法的聚类分析方法[J];电路与系统学报;2002年03期
12 程世辉,徐明洁,申春雪;基于遗传算法的无约束优化问题研究[J];河南教育学院学报(自然科学版);2002年04期
13 李春利,郭章红,杨振生;基于遗传算法的分子设计初探[J];化学工业与工程;2002年01期
14 张宏生,吴拓;遗传算法在非线性方程组求解中的应用[J];肇庆学院学报;2002年02期
15 胡玉兰,张丽萍;基于遗传算法的投资优化问题的应用研究[J];计算机工程与设计;2002年08期
16 王霞,吕岿;基于遗传算法的光学定晕优化[J];上饶师范学院学报(自然科学版);2002年03期
17 杨璐,陈长征,孟杨;遗传算法工程应用进展[J];沈阳工业大学学报;2002年03期
18 熊盛武,王冠;基于动态种群的分布式遗传算法[J];武汉理工大学学报(信息与管理工程版);2002年05期
19 余建坤,张文彬,陆玉昌;遗传算法及其应用[J];云南民族学院学报(自然科学版);2002年04期
20 蔡钧;基于遗传算法的测量数据拟合[J];扬州大学学报(自然科学版);2002年04期
中国重要会议论文全文数据库 前10条
1 韩娟;;遗传算法概述[A];第三届河南省汽车工程科技学术研讨会论文集[C];2006年
2 庞国仲;王元西;;基于遗传算法控制步长的定性仿真方法[A];'2000系统仿真技术及其应用学术交流会论文集[C];2000年
3 林家恒;李国锋;田国会;刘长有;;遗传算法在旋转货架拣选优化中的应用[A];1996中国控制与决策学术年会论文集[C];1996年
4 史骏;裘聿皇;;遗传算法中基因排列方式对运行的影响[A];1996年中国控制会议论文集[C];1996年
5 韩战钢;;遗传算法及在经济中的应用[A];Optimization Method, Econophysics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年
6 唐毅;葛运建;王定成;江建举;;遗传算法在运动员技术动作优化中的应用研究[A];2003年中国智能自动化会议论文集(下册)[C];2003年
7 文泾;朱玉文;;用遗传算法进行航线规划[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
8 于春梅;黄玉清;杨胜波;;遗传算法在参数辨识中的应用进展[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
9 王志宏;王斌;;基于遗传算法的非确定性目标优化[A];中国自动化学会全国第九届自动化新技术学术交流会论文集[C];2004年
10 王晓东;刘全利;金吉凌;王伟;;基于序次优化策略的改进遗传算法[A];第二十三届中国控制会议论文集(下册)[C];2004年
中国博士学位论文全文数据库 前10条
1 周辉仁;递阶遗传算法理论及其应用研究[D];天津大学;2008年
2 郝国生;交互式遗传算法中用户的认知规律及其应用[D];中国矿业大学;2009年
3 侯格贤;遗传算法及其在跟踪系统中的应用研究[D];西安电子科技大学;1998年
4 马国田;遗传算法及其在电磁工程中的应用[D];西安电子科技大学;1998年
5 唐文艳;结构优化中的遗传算法研究和应用[D];大连理工大学;2002年
6 周激流;遗传算法理论及其在水问题中应用的研究[D];四川大学;2000年
7 刘冀成;基于改进遗传算法的生物电磁成像与磁场聚焦应用研究[D];四川大学;2005年
8 袁丽华;基于物种进化的遗传算法研究[D];南京航空航天大学;2009年
9 李航;遗传算法求解多模态优化问题的研究[D];天津大学;2007年
10 石玉;提高实数遗传算法数值优化效率的研究[D];南京航空航天大学;2002年
中国硕士学位论文全文数据库 前10条
1 谷克;遗传算法在公路路线智能决策系统中的应用研究[D];长安大学;2008年
2 李艳娇;基于改进遗传算法的刚架结构截面力学特性参数优化的研究[D];吉林大学;2009年
3 任巍;求解极小碰集的遗传算法的研究与改进[D];吉林大学;2009年
4 王赫;混沌遗传算法在模式识别中的应用[D];东北电力大学;2009年
5 于蕾蕾;双种群遗传算法的改进及其应用研究[D];合肥工业大学;2009年
6 王婧;遗传算法及其在聚类分析中的应用[D];华中师范大学;2009年
7 胡文斯;基于遗传算法的车间作业调度问题的研究[D];中国海洋大学;2009年
8 吴明华;基于遗传算法的养护机械生产车间作业调度问题的研究[D];长安大学;2007年
9 尉钰;基于改进遗传算法的桥梁模型动力优化[D];长安大学;2007年
10 王银年;遗传算法的研究与应用[D];江南大学;2009年
中国重要报纸全文数据库 前2条
1 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年
2 高雪娟;协同设计的平台策略[N];中国计算机报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978