收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

数据挖掘中决策树分类算法的研究与改进

徐洪伟  
【摘要】:分类技术是数据挖掘领域中一种非常重要的研究方法。近几十年来,信息技术的高速发展造就了新一代数据的出现,而这一类数据都有着相似的特性,即高速的、高维的、连续的、动态的、快速变化的、海量的数据集合。如何有效合理利用这些庞大复杂的数据让其为我们服务,成为数据挖掘领域中分类技术要解决的问题。面对这些高维、连续的、动态的复杂数据,传统的分类算法已不能够有效的对这些数据进行分类处理。因此,要进行分类就必须针对现有分类算法的缺点进行研究,针对分类算法的缺点提出改进,使改进的分类算法能更好的处理复杂数据。 针对现有的决策树分类算法的不足,本文从以下几个方面进行改进。首先针对决策树分类算法处理连续属性数据时分类准确性不足的缺点,本文给出了一种BMIC离散化算法的改进算法—New-BMIC离散化算法,该离散化算法能够改善原有BMIC离散化算法在离散化合并的过程中模糊合并的不足,精确离散区间数,达到更好的离散化效果,提高对连续属性的分类精度;其次,针对现有决策树分类算法在处理属性选择时过度拟合、计算效率低下问题,本文给出了一种新的属性选择标准—方差规约,该方法是根绝方差的计算方式来衡量决策树拆分标准,从理论上该方法替代了对数的计算,提高了属性选择标准的计算效率,整体上可以降低决策树分类算法的时间复杂度,使其在应用领域上可以达到及时性、准确性;最后,将属性选择标准和新的离散化算法两个部分进行组合,使改进后决策树分类算法能够有效处理连续属性数据,同时也能减少过度拟合和提高决策树整体的分类效率。最后通过实验验证了改进算法的有效性和正确性。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 张琳琳;;数据挖掘在“工程任务课程化”公路网络建模中的应用[J];数字技术与应用;2011年08期
中国硕士学位论文全文数据库 前3条
1 胡坤煜;基于ASP协作平台分析型客户关系管理系统的研究与实现[D];西南交通大学;2011年
2 刘圣财;基于决策树分类算法的研究与应用[D];长春理工大学;2012年
3 沈小淦;制造业售后服务系统的研究与开发[D];西安电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 王建军;徐宗本;;近似指数型神经网络的本质逼近阶[J];中国科学E辑:信息科学;2006年06期
2 钟鸣,刘晓霞,陈文伟;示例学习算法IBLE和ID_3的比较研究[J];计算机研究与发展;1993年01期
3 苏鹏,李玉忱,刘慧;一种新的加权k-最临近分类方法[J];计算机工程与应用;2003年35期
4 王增民;王开珏;;基于熵权的K最临近算法改进[J];计算机工程与应用;2009年30期
5 曹飞龙,徐宗本,梁吉业;多项式函数的神经网络逼近:网络的构造与逼近算法[J];计算机学报;2003年08期
6 刘波;潘久辉;;基于蚁群优化的分类算法的研究[J];计算机应用与软件;2007年04期
7 姜萍,涂宇峰,周育辉,周芸;一种基于SLIQ的快速扩展分类算法的实现[J];计算机与现代化;2005年03期
8 丁祥武;王斌;;一种基于ID3的前剪枝改进算法[J];计算机与现代化;2008年09期
9 刘红岩,陈剑,陈国青;数据挖掘中的数据分类算法综述[J];清华大学学报(自然科学版);2002年06期
10 张铃,张钹;模糊商空间理论(模糊粒度计算方法)[J];软件学报;2003年04期
中国博士学位论文全文数据库 前3条
1 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
2 张会生;前馈神经网络梯度训练算法的几个收敛性结果[D];大连理工大学;2009年
3 蒋良孝;朴素贝叶斯分类器及其改进算法研究[D];中国地质大学;2009年
中国硕士学位论文全文数据库 前8条
1 张红军;一种新的前馈神经网络训练算法及其在控制中的应用[D];大连理工大学;2002年
2 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
3 何田中;神经网络分类器及其规则抽取技术的研究[D];南昌大学;2005年
4 关晓蔷;基于决策树的分类算法研究[D];山西大学;2006年
5 冯亚;数据挖掘中决策树分类算法研究与应用[D];西北大学;2007年
6 谢政;基于贝叶斯方法的分类问题研究[D];中南大学;2008年
7 孙娓娓;BP神经网络的算法改进及应用研究[D];重庆大学;2009年
8 李方;关于朴素贝叶斯分类算法的改进[D];重庆大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 秦洪英;数据挖掘在网络业务流设计中的实现过程[J];阿坝师范高等专科学校学报;2005年03期
2 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
3 梁学斌;;离散Hopfield神经网络的统一描述[J];安徽大学学报(自然科学版);1993年02期
4 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
5 宋平平;;基于数据挖掘的智能入侵检测系统模型及实现[J];安徽工程科技学院学报(自然科学版);2006年03期
6 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
7 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
8 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
9 陈志民;李亭;杨敬锋;彭晓琴;;珠海市斗门区水产品病害网络诊断与防治系统算法设计[J];安徽农业科学;2010年17期
10 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
中国重要会议论文全文数据库 前10条
1 严传魁;王如彬;;基于汉密尔顿原理的神经元模型[A];第十三届全国非线性振动暨第十届全国非线性动力学和运动稳定性学术会议摘要集[C];2011年
2 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 张铃;张燕平;方宏彬;张沆;;不可约迭代函数系统的商空间理论[A];第二十六届中国控制会议论文集[C];2007年
4 毛军军;张铃;郑婷婷;吴涛;;基于商空间理论的商分形模型[A];第二十六届中国控制会议论文集[C];2007年
5 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
6 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
7 ;Synthesis of Boolean Networks Via Semi-tensor Product[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论和Apriori算法建立中医症候诊断标准[A];中国自动化学会控制理论专业委员会D卷[C];2011年
9 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
10 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
中国博士学位论文全文数据库 前10条
1 孙明;基于小波和迟滞的混沌神经网络及其应用[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
5 朱松;随机回归神经网络的动力学行为研究[D];华中科技大学;2010年
6 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
7 柴园园;普适的模糊推理系统理论及应用[D];北京交通大学;2011年
8 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
9 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
10 李曼荔;求解组合优化问题的神经计算方法[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 李连昌;新安煤田二_1煤层煤与瓦斯突出危险程度预测[D];河南理工大学;2010年
2 罗婷婷;飞机钣金叠板数控套裁下料软件系统的研究[D];南昌航空大学;2010年
3 汤雪;时间序列线性表示方法及其相似性度量算法研究[D];山东科技大学;2010年
4 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
5 徐小任;基于BP神经网络的城镇网络地价评估模型研究[D];广西师范学院;2010年
6 程慧;基于神经网络的两类问题研究[D];广西师范学院;2010年
7 吴家瑞;服装产品加工成本快速估算方法研究[D];浙江理工大学;2010年
8 王捷;数字图像边缘检测方法的若干改进与应用研究[D];浙江理工大学;2010年
9 雷明杰;神经网络和遗传算法在中厚板轧机中的应用研究[D];郑州大学;2010年
10 张华杰;模糊神经网络在肺癌诊断中的应用[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王晓燕;吴应清;;数据挖掘技术分析及其应用评价[J];办公自动化;2007年06期
2 仇春光,刘玉树;自动生成决策树的通用算法模板[J];北京理工大学学报;1999年03期
3 田肇云;;挖掘售后服务领域的潜在价值[J];商业研究;2006年15期
4 演克武;张磊;孙强;;决策树分类法中ID3算法在航空市场客户价值细分中的应用[J];商业研究;2008年03期
5 余伟;;后市场时代的汽车客户关系管理[J];汽车工业研究;2006年06期
6 田苗苗;数据挖掘之决策树方法概述[J];长春大学学报;2004年06期
7 李涛;;关于顾客满意度模型研究存在的问题[J];当代经济;2007年09期
8 陈翠琴;;数据挖掘在移动通信客户满意度管理中的应用[J];福建电脑;2009年12期
9 王莉;;ID3算法的研究与应用[J];福建电脑;2010年01期
10 陈兴;;制造业售后服务质量评价方法设计及应用[J];工业工程;2009年03期
中国博士学位论文全文数据库 前5条
1 王萍;基于数据挖掘技术的消费者行为研究[D];吉林大学;2004年
2 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
3 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
4 沈斌;关联规则相关技术研究[D];浙江大学;2007年
5 李朝玲;质量功能展开的系统建模及应用研究[D];青岛大学;2009年
中国硕士学位论文全文数据库 前10条
1 张选东;面向中小型企业的BI解决方案——基于MS Analysis Services的OLAP Web软件的开发[D];北方工业大学;2003年
2 李晓峰;网络协同售后服务管理系统研究[D];西南交通大学;2004年
3 关晓蔷;基于决策树的分类算法研究[D];山西大学;2006年
4 赵岩;基于数据挖掘技术的消费者购车行为分析[D];内蒙古工业大学;2006年
5 张劲松;基于CRM的汽车市场潜在客户开发与管理[D];上海交通大学;2007年
6 房祥飞;基于决策树的分类算法的并行化研究及应用[D];山东师范大学;2007年
7 高志新;OLAP中数据立方体的研究[D];哈尔滨理工大学;2007年
8 管希艳;基于数据挖掘的客户关系管理研究[D];华中科技大学;2006年
9 张文锋;基于QFD的产品创新设计方法研究[D];浙江大学;2008年
10 卜亚杰;决策树分类算法的研究及应用[D];华北电力大学(河北);2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 李丽;韩仙玉;刘洪江;;关联规则算法在汽车故障分析系统中的应用[J];计算机与现代化;2012年06期
中国硕士学位论文全文数据库 前1条
1 郎俊宇;W公司驻外中心售后服务管理体系研究[D];山东大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 潘涛;BP神经网络模型中活化函数对网络性能影响的研究[J];安徽师大学报(自然科学版);1998年03期
2 王峻;;一种基于属性相关性度量的朴素贝叶斯分类模型[J];安庆师范学院学报(自然科学版);2007年02期
3 李敏生,刘斌;BP学习算法的改进与应用[J];北京理工大学学报;1999年06期
4 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
5 陈雪,戴芹,马建文,李小文;贝叶斯网络分类算法在遥感数据变化检测上的应用[J];北京师范大学学报(自然科学版);2005年01期
6 贺清碧,周建丽;BP神经网络收敛性问题的改进措施[J];重庆交通学院学报;2005年01期
7 王大玲,于戈,鲍玉斌,王国仁;一种基于关联性度量的决策树分类方法[J];东北大学学报;2001年05期
8 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
9 邓娟,杨家明;一种改进的BP算法神经网络[J];东华大学学报(自然科学版);2005年03期
10 陈鑫;基于文本的分类方法研究[J];电脑开发与应用;2003年07期
中国硕士学位论文全文数据库 前2条
1 成文丽;基于决策树的数据挖掘算法的技术研究[D];太原理工大学;2003年
2 黄继红;基于改进PSO的BP网络的研究及应用[D];长沙理工大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 林艳;于书举;;决策树分类算法ID3的应用研究[J];企业科技与发展;2009年08期
2 樊敏;;应用决策树分析影响高校学生就业的因素[J];科技创新导报;2009年31期
3 袁保社;仲爱红;;决策树分类算法在寿险客户数据挖掘中的应用[J];电脑知识与技术(学术交流);2007年16期
4 曲守宁;卢健;;C4.5分类算法在硕士研究生智育测评中的应用[J];济南大学学报(自然科学版);2009年03期
5 沈晨鸣;;决策树分类算法研究[J];盐城工学院学报(自然科学版);2005年04期
6 张薇;;一种基于改进SLIQ决策树分类算法的应用研究[J];苏州大学学报(工科版);2010年01期
7 李慧慧;万武族;;决策树分类算法C4.5中连续属性过程处理的改进[J];计算机与现代化;2010年08期
8 王荣;陈纯;;基于属性选择算法的数据挖掘在离网预测模型中的应用[J];计算机应用与软件;2007年11期
9 郑启鹏 ,李秀 ,刘文煌 ,李兵;支持向量机在银行贷款客户分类中的应用研究[J];微计算机信息;2005年23期
10 王凯;贺国平;侯伟真;;支持向量机在商业银行客户管理中的应用研究[J];微电子学与计算机;2007年01期
中国重要会议论文全文数据库 前10条
1 冷春霞;王翰虎;;一种高效的决策树分类算法[A];第十六届全国数据库学术会议论文集[C];1999年
2 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
3 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
4 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
5 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
6 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
7 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
8 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
10 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
3 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
4 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
5 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
6 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
7 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
2 邵慧;保护隐私的分类挖掘技术研究[D];河北工程大学;2010年
3 陶金强;基于决策树的人才管理系统的设计与实现[D];电子科技大学;2010年
4 孙晓璇;基于决策树分类算法的高职学生就业分析与预测[D];云南大学;2012年
5 李小平;多关系决策树分类算法的研究[D];内蒙古大学;2011年
6 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
7 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
8 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
9 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
10 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026