收藏本站
《西南大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的并行化算法实现及GPS数据实例分析

荣卓波  
【摘要】:随着云计算、物联网和移动互联网的快速发展,大数据正成为信息技术的新热点,产业发展的新方向,对人类的生产与生活产生巨大影响。大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理平台的分析与挖掘,产生新的知识用以支撑决策或业务智能化运转,大数据时代的到来给数据管理与分析提出了新的挑战,数据处理方法的合理性和时效性成为了大数据统计分析的研究热点。近年来,基于数据挖掘算法的大数据分析是研究的重要方向,但大都是以传统单机环境下数据挖掘算法改进为主,由于受内存、扩展性等限制,不能有效满足激增的海量数据处理需求,为此本文研究传统数据挖掘算法在MapReduce并行编程环境下的实现方法,同时,针对大数据时代海量数据的存在形式及Hadoop平台处理海量小文件数据时的性能瓶颈,提出海量小文件处理策略,最后,以出租车GPS数据为实例,对MapReduce实现短时交通路预测的高效性进行验证,在Hadoop环境下,改进基于MapReduce的K近邻短时交通流预测算法,以提高预测准确性。基于以上情况,本文具体做了以下三项工作:(1)针对单机环境下传统数据挖掘算法在对大规模数据分析时存在“内存消耗高、计算性能低、扩展性差和可靠性弱”等问题,提出MapReduce并行环境下KNN、Apriori和K-Means算法的实现方法,并以“可行性、加速比和扩展性”为指标,采用不同大小的真实数据集,在由不同节点组成的集群中进行实验验证。实验结果表明,该实现方法是可行和有效的,能提高KNN、Apriori和K-Means算法的整体性能和挖掘效率,以满足大规模数据挖掘的需要。(2)分析了Hadoop平台的设计初衷是专门处理流式大文件,而现实环境中大部分数据是以海量小文件形式存在,针对Hadoop在处理海量小文件时,存在“内存消耗高、处理效率低”等固有缺陷,本文中实现了CombineFileInputFormat(CFIF)、Hadoop Archive(HA)、Sequence File(SF)等三种处理海量小文件的有效方法,并结合不同用户的实际需求,提出了相应的处理策略,以"Namenode内存消耗、MapReduce运行速度”为指标,验证策略选择的合理性和有效性。实验结果表明,所实现的处理方法和提出的策略选择,能最大化地发挥Hadoop的整体性能,提高海量小文件的处理效率。(3)以海量出租车GPS数据为研究实例,一是利用(1)所述基于MapReduce的并行化K近邻算法解决海量GPS数据预测短时交通流时效率低的问题;二是在短时交通流预测前,引入(2)所述小文件处理方法和策略,对大量出租车GPS数据小文件进行预处理,弥补海量小文件读写速度慢、处理效率低等缺陷:三是在MapReduce环境下,对K近邻短时交通流预测算法的状态向量和距离向量进行改进,解决短时交通流预测准确性问题。通过本文的理论研究、实验验证及实例分析,希望为基于Hadoop平台的大数据分析提供有价值参考,有效解决大数据时代海量数据挖掘与分析问题。
【学位授予单位】:西南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;P228.4

【参考文献】
中国期刊全文数据库 前6条
1 干宏程;汪晴;范炳全;;基于宏观交通流模型的行程时间预测[J];上海理工大学学报;2008年05期
2 张建民;姚亮;胡学钢;;一种面向数据缺失问题的K-means改进算法[J];合肥工业大学学报(自然科学版);2008年09期
3 王振华;侯忠生;高颖;;布尔序列的一种KNN改进算法[J];模式识别与人工智能;2009年02期
4 曾志勇;杨辉;余建坤;;基于HMT和哈希树的Apriori并行算法研究[J];计算机工程与设计;2012年01期
5 秦钰;荆继武;向继;张爱华;;基于优化初始类中心点的K-means改进算法[J];中国科学院研究生院学报;2007年06期
6 许朝阳;;基于多标记文本分类的ML-KNN改进算法[J];江苏师范大学学报(自然科学版);2012年03期
【共引文献】
中国期刊全文数据库 前10条
1 张世博;周义明;;一种优化初始化中心的k均值web信息聚类算法[J];北京石油化工学院学报;2011年04期
2 马冬来;张文静;;一种基于数据属性的Apriori算法的改进方法[J];中国农机化学报;2014年04期
3 靳继红;刘淑芝;;大数据在铁路货运信息系统中的应用框架探讨[J];电脑知识与技术;2015年13期
4 谢劲松;范炳全;干宏程;杨进;;城市快速路最优交通控制[J];上海理工大学学报;2009年01期
5 刘美玲;赵铁军;郑德权;于摇洋;;面向TDT的动态多文档文摘研究[J];哈尔滨工业大学学报;2010年11期
6 唐秋鸿;曹红兵;唐小新;李高虎;高嵩;;基于Web挖掘的图书馆个性化服务系统研究[J];合肥工业大学学报(自然科学版);2012年02期
7 潘大胜;;基于改进的K-means算法的文本聚类仿真系统[J];计算机仿真;2010年08期
8 于滨;邬珊华;王明华;赵志宏;;K近邻短时交通流预测模型[J];交通运输工程学报;2012年02期
9 张真;周志强;;数据挖掘中网格聚类算法研究[J];科技信息;2010年25期
10 陈黎飞;郭躬德;;最近邻分类的多代表点学习算法[J];模式识别与人工智能;2011年06期
中国重要会议论文全文数据库 前1条
1 武森;张桂琼;王莹;吴玲玉;;容差集合差异度高维不完备数据聚类[A];第十二届中国管理科学学术年会论文集[C];2010年
中国博士学位论文全文数据库 前4条
1 许旺土;综合快捷货运服务网络运输能力计算方法研究[D];北京交通大学;2010年
2 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
3 程圣军;基于带约束随机游走图模型的弱监督学习算法研究[D];哈尔滨工业大学;2014年
4 黄超;若干蛋白质种类鉴别的多标记预测问题研究[D];上海交通大学;2014年
中国硕士学位论文全文数据库 前10条
1 谢明隆;公共交通中的行程时间预测方法研究[D];华南理工大学;2011年
2 张鹏飞;WEB挖掘技术在网络警情监控中的应用研究[D];华北电力大学;2011年
3 仲媛;最近邻分类的若干改进算法研究[D];南京理工大学;2012年
4 冯国良;数据挖掘在信息管理系统中的应用研究[D];天津工业大学;2008年
5 聂玖星;印刷体汉字识别系统的特征提取和匹配识别研究[D];大连理工大学;2009年
6 曾路平;基于相似度的文本聚类算法研究及应用[D];江苏大学;2009年
7 何焕;聚类技术在客户细分中的研究与应用[D];江西理工大学;2010年
8 邢美东;基于数据挖掘的餐饮管理系统的设计与实现[D];东北大学 ;2008年
9 田杨;基于NetFlow的异常流量检测研究与实现[D];国防科学技术大学;2009年
10 刘颖杰;区域公交发车计划优化研究[D];华南理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 陆勤,蔡庆生;一种基于约束的空缺数据预处理算法[J];计算机工程与应用;2004年05期
2 李桂林,陈晓云;关于聚类分析中相似度的讨论[J];计算机工程与应用;2004年31期
3 宋宇辰;张玉英;孟海东;;一种基于加权欧氏距离聚类方法的研究[J];计算机工程与应用;2007年04期
4 谭军;卜英勇;杨勃;;高效的关联规则快速更新算法[J];计算机工程与应用;2009年04期
5 陈波;王乐;董鹏;;挖掘最大频繁项集的事务集迭代算法[J];计算机工程与应用;2009年06期
6 曾志勇;杨呈智;陶冶;;负载均衡的FP-growth并行算法研究[J];计算机工程与应用;2010年04期
7 侯文国,傅秀芬,谢翠萍;网格的数据挖掘[J];计算机应用研究;2004年10期
8 王清毅,蔡智,邹翔,蔡庆生;部分数据缺失环境下的知识发现方法[J];软件学报;2001年10期
9 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
10 孟大志;DNA序列中的结构与简化模型[J];数学的实践与认识;2001年01期
【相似文献】
中国期刊全文数据库 前10条
1 江岭;刘学军;汤国安;宋效东;;地形分析中坡度坡向算法并行化方法研究[J];计算机工程与科学;2013年04期
2 陈水福,孙炳楠,唐锦春;建筑风压数值模拟的几种并行化策略[J];计算力学学报;1998年02期
3 陈水福,孙炳楠,唐锦春;建筑绕流风场的并行化数值模拟[J];浙江大学学报(自然科学版);1998年05期
4 袁国兴,张宝琳;一类流体力学程序的向量化与并行化[J];数值计算与计算机应用;1995年04期
5 武继刚;合并选择算法及其并行化[J];兰州大学学报;1991年01期
6 赵晓雷;王敏;;快速傅里叶变换的并行化研究[J];渭南师范学院学报;2011年12期
7 倪安宁;高林杰;肖光年;;交通网络微观仿真并行化实现方法[J];系统管理学报;2014年04期
8 花嵘,傅游;计算机模拟薄气体流动的并行化方法研究[J];山东科技大学学报(自然科学版);2003年03期
9 欧阳智敏;郭海峰;全惠云;;基因表达式算法的并行化及其在函数发现中的应用[J];湖南师范大学自然科学学报;2007年02期
10 潘中建;;SPH方法并行化解决方案[J];软件导刊;2012年11期
中国重要会议论文全文数据库 前8条
1 兰彤;冯玉才;肖伟器;;空间连接处理的并行化研究[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
2 张雯;骆志刚;赵翔;王金华;靳新;;剪接比对软件sim4的并行化研究与实现[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
3 王本龙;龚凯;刘桦;;自由表面流动问题的并行化SPH方法求解[A];中国力学学会学术大会'2009论文摘要集[C];2009年
4 王峰;杨建俊;张天爵;许淑艳;;不同操作平台上的MCNP并行化计算[A];中国原子能科学研究院年报 2009[C];2010年
5 徐金秀;张天刚;;NCC区域气候模式算法分析及并行化实现[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
6 陈皓;罗月童;刘晓平;;基于MPI的光子映射算法并行化[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 曹琰;王清贤;魏强;尹中旭;;基于相容和搜索结合的并行约束求解方法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年
8 陈德华;解维;李悦;;面向大规模图数据的分布式并行聚类算法研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国重要报纸全文数据库 前3条
1 ;服务器软件的并行化革命[N];网络世界;2006年
2 谢涛;英特尔:忽视并行化软件后果很危险[N];电脑商报;2008年
3 记者 鲁媛媛;英特尔软件进入并行时代[N];网络世界;2009年
中国博士学位论文全文数据库 前5条
1 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年
2 丁晓宁;面向CFD的交互式并行化技术研究[D];西北工业大学;2002年
3 张平;并行化编译器中并行程序自动生成和性能优化技术研究[D];解放军信息工程大学;2006年
4 傅游;稀薄气体Monte Carlo数值仿真并行化技术研究与实现[D];西北工业大学;2002年
5 董春丽;并行化编译中数据和计算的自动划分及优化技术研究[D];解放军信息工程大学;2007年
中国硕士学位论文全文数据库 前10条
1 金龑;协同过滤算法及其并行化研究[D];南京大学;2012年
2 杜占伟;人脸识别的并行化研究与实现[D];东北大学;2011年
3 李莹;基于共享存储结构的并行化技术及其优化问题的研究[D];中国石油大学(华东);2013年
4 郭锐;支持推测并行化的可扩展事务存储体系结构设计与性能评价[D];中国科学技术大学;2009年
5 王涛;关联规则算法及并行化研究[D];河北大学;2006年
6 孙琳琳;测试任务的并行化研究[D];长春工业大学;2015年
7 高彦明;蚁群算法并行化研究[D];苏州大学;2005年
8 张静敏;面向CFD程序的并行化系统性能研究[D];西北工业大学;2003年
9 吴东保;药物化合物分子相似性计算的并行化研究[D];华东理工大学;2014年
10 李文浩;基于hadoop streaming的Last软件并行化的研究与实现[D];东北林业大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026