收藏本站
收藏 | 论文排版

基于决策树C4.5算法剪枝策略的改进研究

邱磊  
【摘要】:分类算法是数据挖掘中的一种重要技术,算法的计算速度、鲁棒性、可解释性、可扩展性以及分类模型的准确率是评价分类算法的主要指标。决策树是对数据样例集合进行分类的十分有效的方法。决策树模型下的分类规则直观容易被理解。决策者运用决策树模型来做出准确的预测已经应用在很多领域。在决策树的各类算法中,J. R. Quinlan提出的ID3算法最具有代表性。现在运用最多的C4.5算法就是在ID3算法的基础上改进而来的。虽然C4.5在ID3的基础上进行了改进,但它在面对属性值为连续型的训练样例时计算效率低。针对计算效率低的问题,国内外的学者在如何快速计算连续型属性的最优阈值,以及计算信息增益率时消除对数运算的改进。均使算法的计算效率得到了提高。C4.5算法有很强的处理噪声数据的能力,无论训练样例中含有分类错误的样例,还是样例缺失一部分属性值。然而当训练样例集合中属性缺失率较高时,C4.5算法建立的决策树模型结点数增多,分类准确度也有一定程度的下降。本文针对这个问题,在C4.5算法的基础上改进了决策树生成算法和剪枝策略。在生成决策树时,若某一子集上的所有属性均未知,则直接返回一个叶子节点,标记为unknown。在对通过此方法得到的决策树进行剪枝时,针对某结点是否应该剪除,要考虑两个因素:一是剪除或不剪除此结点的情况下的分类错误率,二是此节点上unknown结点数与所有叶子结点数的比例。通过此剪枝策略得到的决策树,其结点数一定小于等于C4.5算法得到的决策树中的结点数,而且对属性缺失率高的训练样例有着更高的分类准确率。本文将改进后的算法分别运用在属性值为离散型和连续型的训练样例集上。与传统C4.5算法得到的决策树进行了比较。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 张劲松;江波;;基于C4.5算法的民航客户价值细分研究[J];西安航空学院学报;2014年05期
2 李一平;姚宏亮;;C4.5算法在成绩分析中的应用[J];微型电脑应用;2011年06期
3 姜欣,徐六通,张雷;C4.5决策树展示算法的设计[J];计算机工程与应用;2003年04期
4 程代娣;;C4.5算法在高校计算机等级考试成绩分析中的研究[J];淮北师范大学学报(自然科学版);2016年01期
5 李楠;段隆振;陈萌;;决策树C4.5算法在数据挖掘中的分析及其应用[J];计算机与现代化;2008年12期
6 王浩;;C4.5改进算法在研究生调剂中的应用[J];电脑知识与技术;2017年21期
7 徐磊;方源敏;;基于决策树C4.5改进算法的交通数据挖掘[J];微处理机;2010年06期
8 赵建民;黄珊;王梅;刘澎;;改进的C4.5算法的研究与应用[J];计算机与数字工程;2019年02期
9 江家龙;秦亮曦;;C4.5算法在大学生心理健康分析中的应用[J];现代计算机(专业版);2016年21期
10 程龙;蔡远文;;数据挖掘C4.5算法的编程设计与增量学习改进[J];计算技术与自动化;2009年04期
11 黄炜;;C4.5算法在信息检索结果分类中的应用[J];电脑知识与技术;2011年09期
12 王玉珍;徐小云;;C4.5算法在高校数字图书馆客户管理中的应用[J];菏泽学院学报;2015年05期
13 李莉贞;;决策树C4.5算法在学生成绩评估中的应用研究[J];忻州师范学院学报;2012年05期
14 方德坚;游景升;;应用决策树C4.5算法在电视用户收视行为之研究[J];哈尔滨师范大学自然科学学报;2011年03期
15 王阗;佘光辉;;决策树C4.5算法在森林资源二类调查中的应用[J];南京林业大学学报(自然科学版);2007年03期
16 傅亚莉;;数据挖掘技术C4.5算法在成绩分析中的应用[J];重庆理工大学学报(自然科学);2013年11期
17 吴陈;林炎钟;;C4.5算法在高校教师评价中的应用研究[J];信息技术;2011年01期
中国重要会议论文全文数据库 前10条
1 胡海斌;邱明;姜青山;胡海龙;赵新星;;一种基于数据继承关系的C4.5分类优化算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 史达伟;耿焕同;吉辰;黄超;;基于C4.5决策树算法的道路结冰预报模型构建及应用[A];第34届中国气象学会年会 S20 气象数据:深度应用和标准化论文集[C];2017年
3 苗春生;何东坡;王坚红;史达伟;;基于C4.5算法的长江中下游地区夏季降水预测模型研究及应用[A];第34届中国气象学会年会 S6 东亚气候多时间尺度变异机理及气候预测论文集[C];2017年
4 陈晶晶;;C4.5经典分类算法的研究与改进[A];荆楚学术2016年第四期 (总第五期)[C];2016年
5 王传启;黄海;王鹏;陈宗海;;分区代价敏感C4.5模型在电信客户流失预测中的应用[A];第17届中国系统仿真技术及其应用学术年会论文集(17th CCSSTA 2016)[C];2016年
6 赵小强;杨佳敏;;一种基于C4.5的改进TANC分类算法[A];第26届中国控制与决策会议论文集[C];2014年
7 金文;钱卫宁;周傲英;施伯乐;;一种新颖、高效、基于综合因素的聚类算法[A];第十六届全国数据库学术会议论文集[C];1999年
8 郭景峰;陈晓;赵丽;邹晓红;;一种改进的闭图挖掘算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 邹力鹍;王丽珍;;空间例外挖掘算法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 李林博;付忠广;;基于决策树和模糊逻辑的转子振动故障诊断系统[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孙岩;贝叶斯网络结构学习算法研究与应用[D];大连理工大学;2010年
2 王冰;人工蜂群算法的改进及相关应用的研究[D];北京理工大学;2015年
3 王艳娇;人工蜂群算法的研究与应用[D];哈尔滨工程大学;2013年
4 李美安;普适分布式互斥算法及应用[D];电子科技大学;2007年
5 王小根;粒子群优化算法的改进及其在图像中的应用研究[D];江南大学;2009年
6 刘婷;改进人工蜂群算法及其在多用户检测中的应用[D];天津大学;2013年
7 邱剑锋;人工蜂群算法的改进方法与收敛性理论的研究[D];安徽大学;2014年
8 肖建元;保几何结构算法在等离子体物理中的应用[D];中国科学技术大学;2017年
9 盛歆漪;粒子群优化算法及其应用研究[D];江南大学;2015年
10 张冬丽;人工蜂群算法的改进及相关应用研究[D];燕山大学;2014年
中国硕士学位论文全文数据库 前10条
1 邱磊;基于决策树C4.5算法剪枝策略的改进研究[D];华中师范大学;2016年
2 肖坤;改进的C4.5算法及其在地质调查项目管理中的应用研究[D];兰州交通大学;2015年
3 史珊姗;基于决策树C4.5算法的网络入侵检测研究[D];苏州大学;2012年
4 倪涛;税务数据仓库及其基于C4.5挖掘算法的纳税评估模型研究[D];国防科学技术大学;2006年
5 林玲玲;基于C4.5算法的高血压分类规则提取的研究[D];太原理工大学;2012年
6 刘晓宇;C4.5算法的一种改进及其应用[D];中国海洋大学;2013年
7 云玉屏;基于C4.5算法的数据挖掘应用研究[D];哈尔滨理工大学;2008年
8 胡金涛;基于C4.5决策树的学生成绩预测教学系统的研究与实现[D];西南交通大学;2017年
9 李艺;决策树C4.5算法的改进研究[D];辽宁工程技术大学;2016年
10 谢颂天;C4.5算法优化及其在工业品销售中应用研究[D];东华大学;2018年
中国重要报纸全文数据库 前10条
1 眉间尺;比算法推荐更重要的是确认眼神[N];科技日报;2018年
2 陈航辉;切勿陷入算法迷信[N];解放军报;2019年
3 西南政法大学行政法学院 邬蕾;算法与法秩序的重塑[N];中国社会科学报;2019年
4 曾子林 邹力;谨防智能化作战的算法误区[N];解放军报;2019年
5 吴学安;要注意算法中存在的法律隐患[N];中国审计报;2019年
6 沈东坡;致命的“算法”[N];滨海时报;2017年
7 刘振;“成于算法”当警惕“败于算法”[N];安徽日报;2018年
8 中国信息通信研究院产业与规划研究所 李曼 谢智刚;算法升级加快数字经济发展步伐[N];人民邮电;2018年
9 孙益武;算法也应接受法律的审视[N];民主与法制时报;2018年
10 刘文龙;“算法”只是工具 可以运用但别依赖[N];解放日报;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978