收藏本站
《兰州大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

ID3决策树算法分析与改进

张睿  
【摘要】:数据挖掘注重学习和实践中的理论素养的培养,同样也注重在实际中的应用。数据分类是数据挖掘的一个重要组成部分,而其中的决策树算法是数据分类方法中的一种主要方法。目前,虽然已有一些新的改进方法甚至新的划分方法提出,但是这些方法都有其特定的条件与限制,没能在根本上打破ID3决策树算法的基础理论格局。基于这一背景,如何更好的对ID3决策树算法进行分析与改进依然是一个值得去仔细学习和研究的问题。 本文以国家外汇管理局甘肃省分局的实际生产数据为基础,从分析ID3决策树算法并解析其优缺点入手,引入属性样本结构相似度概念,构建了样本结构相似度模型,并以该模型和属性的信息增益共同作为决策树内部节点的选择标准。改进后形成的SS_ID3决策树算法对原始ID3决策树算法的多值偏向问题进行了修正,本文对改进前后的算法进行了理论和实验验证。 在理论分析和实验验证的基础上,通过对比分析能够确定,改进的SS_ID3决策树算法着眼于决策树非叶节点选择标准的优化,所使用的属性结构相似度模型干预的决策树算法,继承了原始ID3决策树算法的优点,并在多值偏向性的修正、决策树的大小控制和对分类及预测性能几方面取得了有意义的改进。本文最后在实际数据的基础上对原始ID3算法和改进的SS_ID3决策树算法的多值偏向问题和决策树的生成分析进行了理论和实验的验证。
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

【引证文献】
中国硕士学位论文全文数据库 前2条
1 高明;基于支持向量机的Web文本分类研究[D];华中师范大学;2011年
2 刘洋;基于数据挖掘的智能变电站辅助决策研究[D];华北电力大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 杨胜刚;王鹏;贺学会;;决策树算法在反洗钱领域中的应用研究[J];湖南大学学报(社会科学版);2006年01期
2 马瑜;王有刚;;ID3算法应用研究[J];信息技术;2006年12期
3 钱锋,徐麟文;知识发现中的聚类分析及其应用[J];杭州师范学院学报(自然科学版);2001年01期
4 刘利;刘珍;;决策树分类算法的可扩展性研究[J];惠州学院学报(自然科学版);2009年03期
5 田金兰,赵庆玉;并行决策树算法的研究[J];计算机工程与应用;2001年20期
6 姜欣,徐六通,张雷;C4.5决策树展示算法的设计[J];计算机工程与应用;2003年04期
7 曲开社,成文丽,王俊红;ID3算法的一种改进算法[J];计算机工程与应用;2003年25期
8 马秀红,宋建社,董晟飞;数据挖掘中决策树的探讨[J];计算机工程与应用;2004年01期
9 鲁为;王枞;;决策树算法的优化与比较[J];计算机工程;2007年16期
10 陆秋;程小辉;;基于属性相似度的决策树算法[J];计算机工程;2009年06期
【共引文献】
中国期刊全文数据库 前10条
1 秦洪英;数据挖掘在网络业务流设计中的实现过程[J];阿坝师范高等专科学校学报;2005年03期
2 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
3 李玲玲;辛浩;;FCM算法及其有效性度量方法[J];安徽电子信息职业技术学院学报;2011年05期
4 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
5 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
6 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
7 陈志民;李亭;杨敬锋;彭晓琴;;珠海市斗门区水产品病害网络诊断与防治系统算法设计[J];安徽农业科学;2010年17期
8 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
9 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
10 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
3 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
4 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
5 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论和Apriori算法建立中医症候诊断标准[A];中国自动化学会控制理论专业委员会D卷[C];2011年
6 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
7 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
8 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
9 王皓;曹永锋;孙洪;;基于流域变换的聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
10 吴栋;张京华;王玉成;胡伍生;;前兆信息模型在地震预测中的应用[A];数字测绘与GIS技术应用研讨交流会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
3 刘汉霞;我国权力寻租的影响因素研究[D];华南理工大学;2010年
4 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
5 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
6 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
7 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
8 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
9 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
10 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
3 李翠;基于车辆自动识别的智能计重监控系统的研究与设计[D];郑州大学;2010年
4 刘春燕;教学网络DIDS数据分析方法的研究与改进[D];郑州大学;2010年
5 郭慧;数据挖掘技术对放射工作人员知觉压力因素分析[D];郑州大学;2010年
6 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
7 解保忠;计算机在矽肺病早期诊断及预测中的应用研究[D];哈尔滨工程大学;2010年
8 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
9 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
10 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 孙凯;王颖龙;;支持向量机中Mercer核函数的构造研究[J];兵工自动化;2008年11期
2 刘华富;支持向量机Mercer核的若干性质[J];北京联合大学学报(自然科学版);2005年01期
3 李霜;王朗珠;张为;张琢;;基于DGA的改进BP神经网络的变压器故障诊断方法[J];变压器;2010年12期
4 李延沐,袁鹏,牟磊,李彦明;基于自适应神经模糊推理系统(ANFIS)的变压器超高频局部放电模式识别[J];电工电能新技术;2005年04期
5 程其云,孙才新,张晓星,周湶,杜鹏;以神经网络与模糊逻辑互补的电力系统短期负荷预测模型及方法[J];电工技术学报;2004年10期
6 李刚;刘有为;王冬青;邓彦国;;智能高压设备与在线监测系统探讨[J];电力建设;2011年06期
7 王勇;梅生伟;何光宇;;变电站一次设备数字化特征和实现[J];电力系统自动化;2010年13期
8 张沛超;高翔;;智能变电站[J];电气技术;2010年08期
9 许婧,王晶,高峰,束洪春;电力设备状态检修技术研究综述[J];电网技术;2000年08期
10 高翔;张沛超;;数字化变电站的主要特征和关键技术[J];电网技术;2006年23期
中国博士学位论文全文数据库 前3条
1 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 司为国;智能变电站若干关键技术研究与工程应用[D];上海大学;2010年
中国硕士学位论文全文数据库 前5条
1 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
2 孙怡哲;一种改进的决策树算法研究与应用[D];辽宁工程技术大学;2010年
3 王谦;基于模糊理论的电力变压器运行状态综合评估方法研究[D];重庆大学;2005年
4 刘从洪;基于IEC61850的数字化变电站通信研究[D];西南交通大学;2008年
5 张陈;基于IEC61850的变电站自动化系统设计[D];西南交通大学;2010年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 王雷;基于内容识别的不良网页双重过滤方法研究[D];吉林大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 尹阿东,宫雨,吴胜利,武森,高学东,李拥军;增量决策树算法及复杂度分析[J];北京科技大学学报;2004年02期
2 夏克文,刘明霄,张志伟,董瑶;基于属性相似度的属性约简算法[J];河北工业大学学报;2005年04期
3 毕建东,杨挂芳;基于熵的决策树分枝合并算法[J];哈尔滨工业大学学报;1997年02期
4 杨宏伟,赵明华,孙娟,王熙照;基于层次分解的决策树[J];计算机工程与应用;2003年23期
5 曲开社,成文丽,王俊红;ID3算法的一种改进算法[J];计算机工程与应用;2003年25期
6 马秀红,宋建社,董晟飞;数据挖掘中决策树的探讨[J];计算机工程与应用;2004年01期
7 郭景峰,米浦波,刘国华;决策树算法的并行性研究[J];计算机工程;2002年08期
8 栾丽华,吉根林;决策树分类技术研究[J];计算机工程;2004年09期
9 李道国,苗夺谦,俞冰;决策树剪枝算法的研究与改进[J];计算机工程;2005年08期
10 王涛;李舟军;胡小华;颜跃进;陈火旺;;一种高效的数据流挖掘增量模糊决策树分类算法[J];计算机学报;2007年08期
【相似文献】
中国期刊全文数据库 前10条
1 李现实;钟秋海;;改进决策树算法在企业资源计划系统中的应用[J];北京理工大学学报;2006年02期
2 施蕾;唐艳琴;张欣星;;数据挖掘中决策树方法的研究[J];计算机与现代化;2009年10期
3 王乐乐;;决策树在网上销售中的挖掘研究[J];长春大学学报;2009年04期
4 仲崇丽;;基于决策树的计算机二级考试成绩分析[J];中国新技术新产品;2009年17期
5 曹丹阳;李晋宏;魏金强;张艳芳;;基于决策树的英语四级成绩分析[J];北方工业大学学报;2007年01期
6 邹赢;;数据挖掘技术在连锁超市经营企业的应用[J];商场现代化;2009年02期
7 李四海;张忠文;;WEKA中的Id3决策树算法[J];长春大学学报;2011年02期
8 胡兰兰;;决策树在实验教学质量评价中的应用研究[J];淮北煤炭师范学院学报(自然科学版);2010年04期
9 麻春;韩有韬;;决策树学习研究[J];科技咨询导报;2007年18期
10 卢润彩;张恒杰;;基于ID3的Lazy DT分类器实现策略[J];石家庄职业技术学院学报;2006年02期
中国重要会议论文全文数据库 前10条
1 钱学君;胡小建;;决策树算法在焊接工艺设计中的应用[A];2008年安徽省科协年会机械工程分年会论文集[C];2008年
2 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 周帅印;李晨;王勇;张阳;;FDTU:针对不确定数据的快速决策树生成算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
6 张德才;张景华;汪萍;;Id3、VEGF、C-erbB-2在乳腺癌中的表达及临床意义[A];第五届全国中医药免疫学术研讨会——暨环境·免疫与肿瘤防治综合交叉会议论文汇编[C];2009年
7 张景华;张德才;汪萍;刘远廷;李景武;何津;;Id3、C-erbB2、PCNA在人类乳腺癌中的表达及临床意义[A];第五届全国中医药免疫学术研讨会——暨环境·免疫与肿瘤防治综合交叉会议论文汇编[C];2009年
8 刘东升;;基于Mobile Agent的分布式ID3挖掘模型[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 姜慧;张冬艳;;决策树在建设工程款拖欠问题中的应用研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
10 韩松来;张辉;周华平;;决策树算法中多值偏向问题的理论分析[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
中国重要报纸全文数据库 前10条
1 广西 邱民欢;功放保护电路误动作的分析与改进[N];电子报;2006年
2 尚文;上烟集团通过“上海市质量金奖”企业现场复评[N];经理日报;2007年
3 张庆丽;金钼集团荣获全国实施卓越绩效模式先进企业称号[N];中国有色金属报;2006年
4 叔大光 周瑞 特约记者 陈宁;不断延伸的精益管理之路[N];东北电力报;2008年
5 本报见习记者 庞国霞 宋凤珠 见习记者 马鑫 刘平;卓越绩效追求“全面的好”[N];中国汽车报;2005年
6 陈曦;ISO近日出台两项新标准[N];中国质量报;2006年
7 王杨二;格力电器获得“全国质量奖”[N];中国质量报;2006年
8 杜吟;近600自评师弄潮卓越[N];中国质量报;2006年
9 温德成贾晓敏;轻装上阵 瞄准重点[N];中国质量报;2007年
10 本报记者 孙吉光;恒源祥引领品牌时代到来[N];国际商报;2006年
中国博士学位论文全文数据库 前10条
1 伍平阳;基于数据挖掘技术的医疗设备绩效预测方法的应用研究[D];南方医科大学;2008年
2 王宏;基于粗糙集数据挖掘技术的客户价值分析[D];哈尔滨工程大学;2006年
3 陈苗;海量地学数据查询优化关键技术的研究[D];吉林大学;2008年
4 海占广;河北省杨树速生林培育决策支持系统若干问题的研究[D];北京林业大学;2009年
5 刘涵;水库优化调度新方法研究[D];西安理工大学;2006年
6 汪素南;智能技术在金融市场溢出效应和反洗钱中的应用研究[D];浙江大学;2007年
7 陶洪;劳动生产率分解理论及其在我国工业领域的应用研究[D];东华大学;2008年
8 吴强;智能群体决策支持系统中若干关键理论与方法研究[D];中国科学技术大学;2006年
9 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
10 刘凯;基于知识发现的珠江口湿地识别监测及演变规律挖掘研究[D];中国科学院研究生院(广州地球化学研究所);2007年
中国硕士学位论文全文数据库 前10条
1 张睿;ID3决策树算法分析与改进[D];兰州大学;2010年
2 陈沛玲;决策树分类算法优化研究[D];中南大学;2007年
3 路慧萍;保持隐私的决策树构造过程的研究[D];同济大学;2006年
4 陆青;利用遗传算法演化决策树并构造信用评估系统对银行客户信用评估分析[D];上海交通大学;2008年
5 王颖;基于数据挖掘技术的银行客户关系管理[D];贵州大学;2006年
6 顾萃琛;基于业务数据分析的保险公司辅助决策支持系统[D];上海师范大学;2010年
7 毛志雄;基于DM技术的化工生产过程控制的优化研究[D];中南大学;2005年
8 王志浩;数据挖掘在招生信息处理系统中的应用研究[D];山东师范大学;2006年
9 凌昊;基于决策树分类算法的网络入侵检测系统的研究[D];湖南大学;2007年
10 史真真;数据挖掘在客户关系管理中的研究及应用[D];长春理工大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026