收藏本站
《山东师范大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于决策树的分类算法研究和应用

迟庆云  
【摘要】:面对信息时代海量数据的出现,如何有效利用海量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得到迅猛发展。 数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,被广泛应用于银行金融、保险、政府、教育、运输等企事业单位及国防科研上。数据挖掘应用的普遍性及带来的巨大经济和社会效益,吸引了许多专家和研究机构从事该领域的研究。 数据分类是数据挖掘中一个重要的内容。分类存在很多方法,其中决策树归纳以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和较高的分类准确率等优点而得到广泛的应用。据统计,目前决策树算法是利用最广泛的数据挖掘算法之一,利用率高达19%。应用领域已由医疗到博弈论和商务等领域,是一些商业规则归纳系统的基础。 寻找新的构造决策树和简化决策树的方法一直是决策树技术研究的一个热点。SLIQ算法和SPRINT算法很好的解决了磁盘驻留数据太大以至于无法被内存容纳带来的问题。它没有采纳利用抽样或划分数据集来获得可容纳于内存的小树据的处理方法,而是采用了一种新的数据结构,直接在整个数据集上建立一棵决策树。但SPRINT、SLIQ等算法处理的训练集的大小都是固定的,来自稳定的环境,人为干预较少,忽视了数据的变化趋势。在现实生活中,数据集并不是稳定的,而是连续到来的。将现有的算法改进使其能够适应不断生长的训练集,生成一棵与旧树相关的树是十分有现实意义的。 本文的研究工作源于上述的背景,目的是对数据库知识发现进行深入的研究,探索数据挖掘中决策树的更新问题,以更好的应用于实际工作中,主要进行了以下的研究工作: 1、指出构造好的决策树的关键在于如何选择好的逻辑判断或属性,比较了信息增益、基尼指数属性选择度量方法的优缺点,探讨了将离散属性值组合计算基尼指数来构造二叉树的方法。 2、研究了决策树的几种生成算法和剪枝算法,比较了它们的优缺点,特别是针对可伸缩的SPRINT算法做了全面的分析。深入探讨了建树算法与剪枝算法的集成问题,即Public算法以及一个可应用于其它算法
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP301.6

【参考文献】
中国期刊全文数据库 前10条
1 王大玲,于戈,鲍玉斌,王国仁;一种基于关联性度量的决策树分类方法[J];东北大学学报(自然科学版);2001年05期
2 张祥德,张巍,刘玉蓉;数据挖掘分类问题的贪婪粗糙集约简算法[J];东北大学学报(自然科学版);2001年05期
3 李波;基于SLIQ分类算法的数据挖掘技术及其在企业CRM中的应用[J];计算机工程与应用;2002年21期
4 张宜生,刘凡,梁书云;人力资源数据挖掘技术及其应用[J];计算机工程与应用;2002年06期
5 张维东,张凯,董青,孙维华;利用决策树进行数据挖掘中的信息熵计算[J];计算机工程;2001年03期
6 尹阿东,谢霖铨,龙誉,杨立东;动态决策树算法研究[J];计算机工程与应用;2004年33期
7 韩慧,毛锋,王文渊;数据挖掘中决策树算法的最新进展[J];计算机应用研究;2004年12期
8 潘永生,庄天戈;决策树算法及其在乳腺疾病图像数据挖掘中的应用[J];计算机应用研究;2002年09期
9 黄定轩,武振业;一类加权连续属性的多变量决策树构造方法[J];系统工程理论方法应用;2005年01期
10 罗海蛟,刘显;数据挖掘中分类算法的研究及其应用[J];微机发展;2003年S2期
【共引文献】
中国期刊全文数据库 前10条
1 吴桐水;贺亮;;基于决策树的航空公司客户流失分析[J];商场现代化;2006年35期
2 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
3 黄晓芳;数据挖掘中决策树算法及其应用[J];兵工自动化;2005年02期
4 黄江涛,刘自伟,黄晓芳;用于数据挖掘的多维数据可视化技术[J];兵工自动化;2005年03期
5 高敏,马宝华;引信安全系统环境识别器的信息原理[J];北京理工大学学报;1992年02期
6 李现实;钟秋海;;改进决策树算法在企业资源计划系统中的应用[J];北京理工大学学报;2006年02期
7 高隆琪,郑硕珍,庞宜生;试论编辑系统的熵变特性[J];编辑学报;1995年01期
8 张玉英;孟海东;;数据挖掘技术中聚类算法的改进研究[J];包头钢铁学院学报;2005年04期
9 姚晔,李翔;决策树算法的教育应用探讨[J];江西师范大学学报(自然科学版);2004年04期
10 刘雨露;;数据挖掘在高校学生管理决策中的应用模式分析[J];成都信息工程学院学报;2006年03期
中国重要会议论文全文数据库 前8条
1 孟少朋;骆红云;李盛;;基于数据挖掘的汽车可靠性分析方法研究[A];2007年全国失效分析学术会议论文集[C];2007年
2 杨静;申艳光;邢丽莉;;数据仓库与数据挖掘的研究与应用[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
3 滕明鑫;高占国;杨秀清;;数据挖掘中决策树算法优化研究[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
4 阮鸣梁;陈维默;;数据挖掘技术的发展与应用[A];福建省科协第五届学术年会数字化制造及其它先进制造技术专题学术年会论文集[C];2005年
5 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
6 张世海;刘晓燕;涂庆;欧进萍;王光远;;知识发现及其在高层结构智能选型中应用[A];计算机技术在工程建设中的应用——第十二届全国工程建设计算机应用学术会议论文集[C];2004年
7 金妮;;一种基于数据仓库和OLAP技术的聚类挖掘系统[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
8 周红梅;薛青;;数据挖掘技术及其在装备作战仿真系统中的应用[A];第五届全国仿真器学术会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 赖邦传;数据驱动的综合智能决策支持系统及其生成器的研究与开发[D];中南大学;2005年
2 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
3 张国江;软计算方法和数据挖掘理论在电力系统负荷预测中的应用[D];浙江大学;2002年
4 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
5 杨新武;遗传归纳逻辑程序设计技术研究[D];北京工业大学;2003年
6 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
7 马昕;粗糙集理论在数据挖掘领域中的应用[D];浙江大学;2003年
8 乔斌;粗糙集理论分层递阶约简算法的研究[D];浙江大学;2003年
9 常明山;面向大规模定制产品规划关键技术的研究[D];天津大学;2003年
10 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
中国硕士学位论文全文数据库 前10条
1 陈黎;序列挖掘算法研究[D];重庆大学;2001年
2 谷宏群;数据挖掘中可视化方法研究[D];武汉大学;2005年
3 宾宁;分布式环境下数据挖掘分类算法研究[D];中南大学;2005年
4 马雪梅;建设用地及其变化信息遥感监测方法研究[D];河海大学;2006年
5 王黎明;决策树学习及其剪枝算法研究[D];武汉理工大学;2007年
6 李瑞录;数据挖掘技术在人口信息系统中的应用[D];吉林大学;2005年
7 王威;基于决策树的数据挖掘算法优化研究[D];西南交通大学;2005年
8 王其涛;基于数据挖掘的采购决策研究[D];广东工业大学;2005年
9 胡桂林;决策树在卫生服务信息挖掘中的应用[D];重庆医科大学;2005年
10 赵文硕;基于数据仓库的学校物资管理与分析系统的设计[D];辽宁工程技术大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 姜小光,王长耀,王成;成像光谱数据的光谱信息特点及最佳波段选择——以北京顺义区为例[J];干旱区地理;2000年03期
2 甘甫平,王润生,王永江,付正文;基于遥感技术的土地利用与土地覆盖的分类方法[J];国土资源遥感;1999年04期
3 刘颖,谷延锋,张晔;基于改进遗传算法的超光谱图像特征选择方法[J];哈尔滨工业大学学报;2005年06期
4 陶秋香,陶华学,张连蓬;线性混合光谱模型在植被高光谱遥感分类中的应用研究[J];勘察科学技术;2004年01期
5 刘旭升,张晓丽;森林植被遥感分类研究进展与对策[J];林业资源管理;2004年01期
6 谭炳香;高光谱遥感森林应用研究探讨[J];世界林业研究;2003年02期
7 谭炳香;李增元;陈尔学;庞勇;;EO-1 Hyperion高光谱数据的预处理[J];遥感信息;2005年06期
8 刘春红,赵春晖,张凌雁;一种新的高光谱遥感图像降维方法[J];中国图象图形学报;2005年02期
9 杜云艳,周成虎;水体的遥感信息自动提取方法[J];遥感学报;1998年04期
10 李爽,张二勋;基于决策树的遥感影像分类方法研究[J];地域研究与开发;2003年01期
中国博士学位论文全文数据库 前2条
1 延昊;中国土地覆盖变化与环境影响遥感研究[D];中国科学院研究生院(遥感应用研究所);2002年
2 骆成凤;中国土地覆盖分类与变化监测遥感研究[D];中国科学院研究生院(遥感应用研究所);2005年
中国硕士学位论文全文数据库 前10条
1 许军强;长白山地表温度反演与地热分布特征研究[D];吉林大学;2007年
2 戴南;基于决策树的分类方法研究[D];南京师范大学;2003年
3 宾晟;数据挖掘在人口普查数据中的应用[D];青岛大学;2004年
4 张倩;基于决策树方法的航空高光谱遥感土地覆盖分类研究[D];山东科技大学;2005年
5 陈鑫;基于决策树技术的遥感影像分类研究[D];南京林业大学;2006年
6 孙华;SPOT5在森林资源调查中的应用研究[D];中南林业科技大学;2006年
7 万永锋;决策树学习算法在金融自助设备监控系统中的应用[D];郑州大学;2007年
8 冯亚;数据挖掘中决策树分类算法研究与应用[D];西北大学;2007年
9 姜春玲;基于数字图像处理技术的林业资源调查研究[D];山东师范大学;2007年
10 胡樱;基于多特征的图像分类决策树生成方法研究[D];中南大学;2007年
【二级参考文献】
中国期刊全文数据库 前5条
1 毕建东,杨挂芳;基于熵的决策树分枝合并算法[J];哈尔滨工业大学学报;1997年02期
2 肖勇,陈意云;用遗传算法构造决策树[J];计算机研究与发展;1998年01期
3 赵卫东,李旗号;粗集在决策树优化中的应用[J];系统工程学报;2001年04期
4 黄定轩;基于客观信息熵的多因素权重分配方法[J];系统工程理论方法应用;2003年04期
5 谭旭,王丽珍,卓明;利用决策树发掘分类规则的算法研究[J];云南大学学报(自然科学版);2000年06期
【相似文献】
中国期刊全文数据库 前10条
1 张丽;;数据仓库与数据挖掘[J];贵州民族学院学报(哲学社会科学版);2006年02期
2 陈勤富;米根锁;何江燕;;Rough Set理论在数据挖掘中的研究与应用[J];光盘技术;2008年09期
3 旷海兰,罗可,王樱;Rough Set理论在数据挖掘中的应用[J];衡阳师范学院学报;2005年03期
4 彭景芹,刘振明,赵可新;人工智能技术在配电自动化中的应用[J];微计算机信息;2005年08期
5 谢含;;知识发现法对图书馆参考咨询工作的影响[J];医学信息学杂志;2009年08期
6 郑建国,周明全,耿国华;智能数据挖掘理论体系研究[J];西安电子科技大学学报;2004年01期
7 刘洪江;;浅谈知识发现与统计学的异同[J];甘肃科技;2008年08期
8 薛珑;;知识发现和数据挖掘及其在客户关系管理中的应用[J];科学与管理;2007年04期
9 刘业政;杨善林;朱卫东;;知识发现的过程驱动策略[J];计算机科学;2001年09期
10 刘悦,李桂丽;数据库中关系规则的数据挖掘[J];鞍山钢铁学院学报;2002年05期
中国重要会议论文全文数据库 前10条
1 郝丽;刘乐平;;健康心理学研究与数据挖掘[A];江西省抚州市社科联论文集(2002-2003)教育文化类[C];2003年
2 李英;李武;王浣尘;;基于Agent的空间数据挖掘系统模型[A];2003中国控制与决策学术年会论文集[C];2003年
3 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
5 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
6 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
7 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
8 王洪肖;刘威;于贺玲;;基于XML技术的WEB数据收集模型的研究[A];低碳经济与科学发展——吉林省第六届科学技术学术年会论文集[C];2010年
9 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
10 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 陈志楠;挖掘“不为人知的艺术”[N];科技日报;2009年
3 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
4 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
5 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
6 张立明;数据挖掘之道[N];网络世界;2003年
7 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
8 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
9 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
10 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
2 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
3 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
4 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
5 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
6 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
7 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
8 朱正祥;领域驱动知识发现方法研究[D];大连理工大学;2010年
9 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
10 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 朱红;基于人才认知的数据挖掘研究[D];昆明理工大学;2002年
2 迟庆云;基于决策树的分类算法研究和应用[D];山东师范大学;2005年
3 李长源;关联规则挖掘算法研究[D];哈尔滨工程大学;2005年
4 陶妍艳;基于知识发现的房地产企业客户信息分析研究[D];武汉理工大学;2006年
5 唐志军;基于分布式概念格的知识发现研究[D];合肥工业大学;2005年
6 周俊临;自适应自组织映射网络在模式识别中的应用研究[D];电子科技大学;2005年
7 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
8 谢友辉;数据挖掘技术及在机车故障诊断中的应用[D];中南大学;2004年
9 赫英广;数据挖掘在铁路货运营销决策支持系统中的研究与应用[D];湖南大学;2005年
10 卫祥;概念格的分布式构造方法研究与实现[D];合肥工业大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026