收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的决策树算法改进及林业数据分类预测研究

李海涛  
【摘要】:互联网的快速发展,使数据规模呈指数级增长,海量的数据中蕴含着非常多的信息,需要我们挖掘与分析其中价值,在使用传统驻留内存的数据挖掘算法处理海量数据时受到了单机性能问题的限制,而Hadoop的海量数据存储系统和并行化编程框架技术为处理海量数据的需求提供了一种有效的解决方案。我国的森林资源较为丰富,在多年的监测和整理后,森林资源的基础数据资料已经初具规模,其具有高维、噪声、量大等特点,而传统的林业数据分析手段在处理上也越来越乏力,已经无法满足林业的需求,急需引入一种科学的、高效的技术手段。基于以上,本文提出一种基于Hadoop平台的不确定概率C4.5 (Imprecise Probability C4.5, IP-C4.5)算法,可以对数据集的不可靠性带来的误差进行优化,并具有处理海量数据的能力。同时将改进的IP-C4.5算法引入林业应用,对森林成熟度、森林覆盖类型进行分类预测,从而对今后林业数据的分析开辟了一种新的模式。本文的具体研究内容如下:(1)选择了在实际应用中使用较多的C4.5决策树算法进行研究和改进,利用开源软件Weka提供的J48代码进行研究学习;改进的C4.5算法在选取分裂属性时,用基于不确定概率的信息增益率代替原有的信息增益率,这样会更加适合处理嘈杂的数据集。(2)研究了云计算技术,重点学习研究了Hadoop平台的文件系统HDFS以及并行编程框架MapReduce,结合传统决策树算法的算法模型,在计算属性选择度量时将数据集进行纵向划分,以一种基于文件分裂的方式对改进的算法进行并行化设计。在保证没有牺牲掉分类准确率为代价的前提下,使并行化的算法在处理海量数据时具有高效性及可扩展性。(3)林业数据具有高维性、噪音多、海量等特点,而改进的C4.5算法正适合处理嘈杂的数据,基于Hadoop平台的并行化程序又适合处理海量数据,所以,最后将设计好的程序应用于处理林业数据。实验从封闭和开放两个方面对一组林分小班数据集进行森林成熟度的预测,之后对来自UCI国际机器学习数据库的较大量的森林覆盖类型数据集Covertype建立决策树模型,预测森林覆盖的类型。实验结果表明,改进的算法在处理嘈杂数据时具有更高的准确率,同时并行化后的改进算法在分类精度上也没有损失,并且在处理海量数据时具有绝对优势,有着较为理想的加速比和效率;在林业数据分类预测方面,本文的算法有着更高的准确率和较好的时间优越性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 邱涛;李雯;;决策树算法在智能导学系统中的应用[J];计算机技术与发展;2009年12期
2 柴伟杰;付志兵;王志芳;;决策树算法在应急预案评估中的应用分析[J];无线电工程;2011年07期
3 王秀岩;;决策树算法及其应用[J];电子技术与软件工程;2014年05期
4 姚家奕,姜海,王秦;决策树算法的系统实现与修剪优化[J];计算机工程与设计;2002年08期
5 潘永生,庄天戈;决策树算法及其在乳腺疾病图像数据挖掘中的应用[J];计算机应用研究;2002年09期
6 王熙照,孙娟,杨宏伟,赵明华;模糊决策树算法与清晰决策树算法的比较研究[J];计算机工程与应用;2003年21期
7 尹阿东,宫雨,吴胜利,武森,高学东,李拥军;增量决策树算法及复杂度分析[J];北京科技大学学报;2004年02期
8 王静红,王熙照,邵艳华,王伍伶;决策树算法的研究及优化[J];微机发展;2004年09期
9 王曙燕,耿国华,李丙春;决策树算法在医学图像数据挖掘中的应用[J];西北大学学报(自然科学版);2005年03期
10 尹阿东,郭秀颖,宫雨,龙誉,高学东;增量决策树算法研究[J];微机发展;2005年02期
11 张彦;刘暾东;李茂青;;基于信息论的决策树算法探讨[J];自动化技术与应用;2006年01期
12 龙际珍;任海叶;易华容;;一种改进决策树算法的探讨[J];株洲师范高等专科学校学报;2006年02期
13 冯少荣;;决策树算法的研究与改进[J];厦门大学学报(自然科学版);2007年04期
14 张维东;朱宏明;周闻钧;;决策树算法在蛋白质二级结构预测问题中的应用研究[J];微型电脑应用;2009年02期
15 宋广玲;郝忠孝;吴海燕;;改进的多关系决策树算法[J];计算机应用研究;2009年12期
16 张琼声;陈晓伟;李春华;刘童璇;;一种基于属性加权的决策树算法[J];微计算机应用;2010年01期
17 陆瑞兴;杨颖;张毅;;决策树算法在物流仓储中的研究与应用[J];微计算机信息;2010年30期
18 王源;王甜甜;;改进决策树算法的应用研究[J];电子科技;2010年09期
19 张林;张昊;;决策树算法分析及其在实际应用中的改进[J];铜陵学院学报;2010年06期
20 张如;;基于决策树算法的高职学生英语四级通过情况的预测研究[J];电脑知识与技术;2011年11期
中国重要会议论文全文数据库 前3条
1 韩松来;张辉;周华平;;决策树算法中多值偏向问题的理论分析[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
2 杨林权;吕维先;;基于决策树算法的SimuroSot决策程序设计[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
中国硕士学位论文全文数据库 前10条
1 王伟;具有降维容噪特性的决策树算法改进[D];郑州大学;2015年
2 薛砚丹;基于决策树算法的高校财务管理与决策分析研究[D];宁夏大学;2015年
3 高帆;基于面向对象决策树算法的土地利用遥感分类初步研究[D];云南师范大学;2015年
4 龙志勇;基于并行化的决策树算法优化及其应用研究[D];浙江大学;2015年
5 张敬轩;决策树算法在违约预测中的应用[D];北京理工大学;2015年
6 李伟;决策树算法应用及并行化研究[D];电子科技大学;2014年
7 张晓伟;银行卡业务分析和数据挖掘系统的设计与实现[D];电子科技大学;2014年
8 刘胜涛;地源热泵优化控制系统设计与研究[D];电子科技大学;2016年
9 李海涛;基于Hadoop的决策树算法改进及林业数据分类预测研究[D];东北林业大学;2016年
10 杨娜;基于决策树算法的供应商评估研究[D];中南民族大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978