收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop平台的并行决策树算法研究

吕涛  
【摘要】:科学技术的发展给人们带来便利的同时,也会给我们提出新的问题,新的挑战。当我们使用互联网进行信息传递与交互的时候,会产生大量的数据信息,传统的单机算法已无法满足现在的计算需求。这就促使人们寻求新的技术来实现对大量数据的处理与分析。并行计算和大数据平台的应用成为目前最好的解决方案。分类算法用于对事务的分类和预测,对人类认识事物做出正确的指引,是重要的数据挖掘任务。Hadoop是一种分布式系统基础架构,具有可跨平台性、高容错性等优点。采用分布式数据块存储,能够高并发、高容错的处理大规模数据。文中将主要分两部分来展开对Hadoop上分类并行算法的研究工作。(1)在研究C4.5算法的基础上,提出了基于Hadoop的并行分类算法HD_C4.5,并进行了 MapReduce的并行化实现。算法HD_C4.5充分利用MapReduce计算框架将属性选择度量的关键任务进行最大化的并行处理,有效的解决了选取最佳分裂属性对计算机资源的占用,提高了效率。在构建的完全分布式Hadoop集群中完成了实验,经过对比分析,结果显示本文提出的算法性能更优。(2)提出一种基于Hadoop的并行共享决策树挖掘算法的剪枝改进算法。该算法在决策树实现对共享知识的并行挖掘下,通过将不确定概率误差分类数作为剪枝选择依据,对决策树剪枝,减少训练集不可靠性对模型的影响来提升算法性能,而且随着数据集的增大,改进算法的优越性更加明显。在搭建的大数据Hadoop平台框架下,进行了对比实验。结果显示,改进之后的算法用时更少、效率更高,能更好的适应大数据处理需求。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 陈火荣;;数据挖掘中决策树算法的应用研究[J];电脑编程技巧与维护;2017年14期
2 何迪;;面向大数据分析的决策树算法[J];信息系统工程;2017年07期
3 刘宇;程学林;;基于决策树算法的爬虫识别技术[J];软件;2017年07期
4 张棪;曹健;;面向大数据分析的决策树算法[J];计算机科学;2016年S1期
5 蔡星;;决策树算法及其改进[J];科技创新导报;2014年12期
6 刘润宗;阮汝祥;房斌;宋璞;;逆向快速决策树算法概要[J];计算机应用研究;2011年12期
7 赵紫奉;李韶斌;孔抗美;;基于决策树算法的疾病诊断分析[J];中国卫生信息管理杂志;2011年05期
8 林向阳;;数据挖掘中的决策树算法比较研究[J];中国科技信息;2010年02期
9 陆瑞兴;杨颖;张毅;;决策树算法在物流仓储中的研究与应用[J];微计算机信息;2010年30期
10 张林;张昊;;决策树算法分析及其在实际应用中的改进[J];铜陵学院学报;2010年06期
11 龙际珍;任海叶;易华容;;一种改进决策树算法的探讨[J];株洲师范高等专科学校学报;2006年02期
12 唐华松,姚耀文;数据挖掘中决策树算法的探讨[J];计算机应用研究;2001年08期
13 贤继红;王家海;;数据挖掘中决策树算法的研究[J];世界科技研究与发展;2009年04期
14 佘为;韩昌豪;;一种改进的决策树算法研究[J];电脑知识与技术;2015年11期
15 谢妞妞;;决策树算法综述[J];软件导刊;2015年11期
16 吴晓明;;一种新的基于粗糙集的概念模糊化决策树算法[J];新课程学习(中);2014年09期
17 王源;王甜甜;;改进决策树算法的应用研究[J];电子科技;2010年09期
18 宋广玲;郝忠孝;吴海燕;;改进的多关系决策树算法[J];计算机应用研究;2009年12期
中国重要会议论文全文数据库 前10条
1 华勇;张云龙;;决策树算法在信息资产识别中的应用[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
2 金鑫;闫龙川;刘军;张书林;;基于决策树算法的企业信息系统故障自动诊断分析方法[A];2016电力行业信息化年会论文集[C];2016年
3 张守娟;周诠;;空间数据挖掘决策树算法在遥感图像分类中的应用研究[A];中国遥感应用协会2010年会暨区域遥感发展与产业高层论坛论文集[C];2010年
4 韩松来;张辉;周华平;;决策树算法中多值偏向问题的理论分析[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
5 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
6 桑明茜;;决策树在财务报表分析中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
7 滕明鑫;高占国;杨秀清;;数据挖掘中决策树算法优化研究[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
8 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
9 史达伟;耿焕同;吉辰;黄超;;基于C4.5决策树算法的道路结冰预报模型构建及应用[A];第34届中国气象学会年会 S20 气象数据:深度应用和标准化论文集[C];2017年
10 杨林权;吕维先;;基于决策树算法的SimuroSot决策程序设计[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
中国博士学位论文全文数据库 前5条
1 冯兴华;基于公理模糊集的模糊决策树算法研究[D];大连理工大学;2013年
2 罗海艳;移动用户网络行为分析与预测方法研究[D];沈阳农业大学;2015年
3 刘润宗;模式识别领域中形变不变量的若干关键问题研究[D];重庆大学;2012年
4 陶洪;劳动生产率分解理论及其在我国工业领域的应用研究[D];东华大学;2008年
5 伍平阳;基于数据挖掘技术的医疗设备绩效预测方法的应用研究[D];南方医科大学;2008年
中国硕士学位论文全文数据库 前10条
1 王昺翔;决策树算法在烟草公司CRM中的研究与应用[D];内蒙古大学;2018年
2 吕涛;基于Hadoop平台的并行决策树算法研究[D];西安科技大学;2018年
3 蒋景智;恶意代码行为本体自动生成的研究[D];哈尔滨工业大学;2018年
4 严蔚岚;基于决策树算法的气象数据分析及发布平台[D];南京信息工程大学;2018年
5 谭玉莹;基于C4.5改进的林地宜植性预测系统的研究与实现[D];辽宁大学;2018年
6 朱瑞瑞;基于改进决策树算法的绩效测评应用研究[D];安徽大学;2018年
7 宋晴晴;基于决策树算法的商户小额信贷评级系统[D];湖南科技大学;2017年
8 杜涛;面向柑橘病虫害预警的Hadoop数据挖掘技术研究[D];华东交通大学;2018年
9 姜如霞;基于YARN框架下决策树算法的并行化研究[D];南昌大学;2018年
10 于振灏;基于模糊理论的决策树算法的研究及应用[D];中国地质大学(北京);2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978