基于信息增益的决策树算法的分析与改进
【摘要】:数据挖掘概念的第一次出现是在1995年的知识发现会议上,由Fayyad提出的。他认为数据挖掘是一个知识发现的过程,是一个自动或者半自动化的从大量的数据中发现有意义的,对我们潜在有用的数据模式的过程。数据挖掘研究起初的障碍是数据的收集比较困难,对少量数据处理容易导致模型的过度拟合。后来由于越来越多的人意识到数据挖掘的重要性,各行各业开始逐渐投入大量的资源来建立和维护自己的信息化系统以用来收集可利用的数据。但是数据量的丰富,在给我们提供大量数据的同时也带来了一些麻烦。首先虽然数据量很大但不一定全是有用的信息,从这些数据中找出我们需要的数据是一个重要的问题,其次数据量过大时对数据的存储也是一个重大的挑战。数据挖掘中使用的方法主要是有以下几类,关于监督和预测的模型:神经网络、决策树算法、回归等;无监督模型:聚类分析(快速聚类及二阶聚类)和关联分析(多维关联及时序关联);针对大数据现象出现的数据降维类方法:主成分分析、因子分析等。根据想要得到的结果,可以选择不同的分析方法。本文主要介绍决策树方法中的ID3算法和C4.5算法,并且分析了它们各自的优缺点。本文的创新点是在ID3算法理论的基础上提出了修正的信息增益函数。修正的算法可以在一定程度上避免原算法中易偏向于选择属性取值数目较多的属性作为样本的划分属性。将ID3算法和改进的算法的预测能力进行比较,实验表明改进的算法具有更高的预测精度。本文中还分析了数据流挖掘中基于Hoeffding不等式的VFDT算法,针对连续属性处理的NIPDT算法,基于排序二叉树思想的VFDTb算法,以及融合了贝叶斯分类思想的VFDTc算法。对VFDT算法和VFDTc算法在数据的处理速度方面对了比较,实验表明VFDTc算法具有更好的处理速度。
|
|
|
|
1 |
邱涛;李雯;;决策树算法在智能导学系统中的应用[J];计算机技术与发展;2009年12期 |
2 |
柴伟杰;付志兵;王志芳;;决策树算法在应急预案评估中的应用分析[J];无线电工程;2011年07期 |
3 |
王秀岩;;决策树算法及其应用[J];电子技术与软件工程;2014年05期 |
4 |
姚家奕,姜海,王秦;决策树算法的系统实现与修剪优化[J];计算机工程与设计;2002年08期 |
5 |
潘永生,庄天戈;决策树算法及其在乳腺疾病图像数据挖掘中的应用[J];计算机应用研究;2002年09期 |
6 |
王熙照,孙娟,杨宏伟,赵明华;模糊决策树算法与清晰决策树算法的比较研究[J];计算机工程与应用;2003年21期 |
7 |
尹阿东,宫雨,吴胜利,武森,高学东,李拥军;增量决策树算法及复杂度分析[J];北京科技大学学报;2004年02期 |
8 |
王静红,王熙照,邵艳华,王伍伶;决策树算法的研究及优化[J];微机发展;2004年09期 |
9 |
王曙燕,耿国华,李丙春;决策树算法在医学图像数据挖掘中的应用[J];西北大学学报(自然科学版);2005年03期 |
10 |
尹阿东,郭秀颖,宫雨,龙誉,高学东;增量决策树算法研究[J];微机发展;2005年02期 |
11 |
张彦;刘暾东;李茂青;;基于信息论的决策树算法探讨[J];自动化技术与应用;2006年01期 |
12 |
龙际珍;任海叶;易华容;;一种改进决策树算法的探讨[J];株洲师范高等专科学校学报;2006年02期 |
13 |
冯少荣;;决策树算法的研究与改进[J];厦门大学学报(自然科学版);2007年04期 |
14 |
张维东;朱宏明;周闻钧;;决策树算法在蛋白质二级结构预测问题中的应用研究[J];微型电脑应用;2009年02期 |
15 |
宋广玲;郝忠孝;吴海燕;;改进的多关系决策树算法[J];计算机应用研究;2009年12期 |
16 |
张琼声;陈晓伟;李春华;刘童璇;;一种基于属性加权的决策树算法[J];微计算机应用;2010年01期 |
17 |
陆瑞兴;杨颖;张毅;;决策树算法在物流仓储中的研究与应用[J];微计算机信息;2010年30期 |
18 |
王源;王甜甜;;改进决策树算法的应用研究[J];电子科技;2010年09期 |
19 |
张林;张昊;;决策树算法分析及其在实际应用中的改进[J];铜陵学院学报;2010年06期 |
20 |
张如;;基于决策树算法的高职学生英语四级通过情况的预测研究[J];电脑知识与技术;2011年11期 |
|