收藏本站
收藏 | 论文排版

基于Hadoop平台的海量数据处理应用

陈娜  
【摘要】:面对互联网数据爆炸式的增长,传统单机处理方式已经慢慢落伍,新式的分布式并行处理日益成熟,将替代原有的处理方式。时下有关数据的海量处理和存储成为研究的热潮。在这其中,由Dong Cutting等人开发的Hadoop平台脱颖而出,成为分布式处理的宠儿。 Hadoop基础分布式架构主要由HDFS分布式文件系统和MapReduce计算模型组成。HDFS主要负责海量数据的存储,而MapReduce主要负责在海量数据上的计算。传统的日志处理一般都采用单机式的shell脚本处理,在面对今天海量数据处理中有些力不从心。而随着互联网社交网络的发展,社交人际关系的处理也成为当今互联网研究的热点。 本文针对社交网络的海量日志处理,由传统shell处理方式,转向的Hadoop平台下的MapReduce处理方式。提供更加快速的处理速度,更方便、快捷和人性化的处理界面,以及更加细致分析功能。并在此基础上,应用和改进单源最短路径Dijkstra算法,将其分布式化,利用它分析社交网络中的人际关系。 在实验部分,通过搭建1个4台机器小集群,对比shell脚本处理,验证了hadoop在海量日志处理方面的优势。同时利用分布式Dijkstra算法,分析了陌生人之间的人际关系。 最后本文还针对Hadoop平台运行作业提出了一些配置参数优化方式,这些参数都是通过对Hadoop源码的分析以及在大量作业运行的基础上分析获得的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王振宇;郭力;;基于Hadoop的搜索引擎用户行为分析[J];计算机工程与科学;2011年04期
2 Peter Baumann,赵曜;海量数据处理与多维数据库[J];中文信息;1998年05期
3 AlixL.Paultre;用全息技术实现海量数据存储[J];今日电子;2002年08期
4 马照亭;李成名;王继周;潘懋;;海量地形可视化的研究现状与前景展望[J];测绘科学;2006年01期
5 罗勇;何玉珠;;外场高速数据采集系统的研制[J];电子测量技术;2006年02期
6 周婧;王意洁;阮炜;李思昆;;面向海量数据的数据一致性研究[J];计算机科学;2006年04期
7 吴丽娟;郑冕;张彩明;;海量空间数据点k近邻的快速搜索算法[J];小型微型计算机系统;2007年01期
8 吴飞;解智强;赵俊三;;海量数据下三维影像图的制作与关键问题探讨——以昆明市域为例[J];测绘信息与工程;2007年03期
9 王新筠;;数据挖掘技术在图书馆自动化管理系统中的应用[J];科技情报开发与经济;2007年26期
10 王喆;潘懋;戴婉薇;郭艳军;;支持海量数据操作的Oracle数据引擎的设计与实现[J];地理与地理信息科学;2008年02期
11 邢海韬;饶健菱;;应用先进管理技术实现海量数据统一管理[J];大众科技;2008年09期
12 伊雯雯;孙涌;尹春晖;;集群环境下个性化检索系统的研究与实现[J];苏州大学学报(自然科学版);2008年03期
13 杨国安;郭乃明;;应用于海洋平台安全保障系统的海量数据管理[J];计算机与现代化;2009年03期
14 舒畅;李秀玲;刘丽丽;;网络管理系统开发中几个关键问题的讨论[J];软件导刊;2010年09期
15 艾菊梅,陆玲;海量数据的存储与高速查询方案设计与研究[J];计算机辅助工程;2003年04期
16 宋江洪,赵忠明;图像分块分层结构在海量数据处理中的应用[J];计算机工程与应用;2004年33期
17 贲进,张永生,童晓冲;地形可视化系统Terra Vision技术分析及其在全球海量空间数据管理中的应用[J];测绘通报;2005年06期
18 张金乙;姜文志;蒋伟俊;王迪;;高速海量数据的接收和存储系统的设计与实现[J];计算机时代;2007年12期
19 孟斌;王亮;;高并发和海量数据的地图服务系统设计与关键技术[J];重庆工学院学报(自然科学版);2009年04期
20 华珺;;海纳百川——万兆IP SAN的价值[J];信息方略;2009年04期
中国重要会议论文全文数据库 前10条
1 张坜;孙国强;;集装箱运输系统ETL的设计与实现[A];第七届全国信息获取与处理学术会议论文集[C];2009年
2 张丽艳;庄海军;聂军洪;;基于海量数据测量的逆向工程与快速原型集成技术研究[A];特种加工技术——2001年中国机械工程学会年会暨第九届全国特种加工学术年会论文集[C];2001年
3 陈建海;王建弟;李子川;;基于数据仓库的地籍管理信息系统框架设计[A];地理空间信息技术及其应用论坛论文集[C];2005年
4 陈建海;王建弟;李子川;;基于数据仓库的地籍管理信息系统框架设计[A];中国地理信息系统协会第九届年会论文集[C];2005年
5 韩伟红;贾焰;杨树强;;TB级海量数据实时加载技术的研究与实现[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
6 钟志勇;陈映鹰;;海量遥感数据应用方法初探[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
7 陈卓;刘晓平;;关于BISONC程序的交互式数据处理及科学计算的可视化[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
8 李学军;;利用CASS地形图建立MapInfo数据库的探讨[A];2007'全国测绘科技信息交流会暨信息网成立30周年庆典论文集[C];2007年
9 李学军;;利用CASS地形图建立MapInfo数据库的探讨[A];中国测绘学会九届三次理事会暨2007年“信息化测绘论坛”学术年会论文集[C];2007年
10 徐辉;王闯;;主体功能区规划地理信息数据库技术平台建设研究[A];科技创新与节能减排——吉林省第五届科学技术学术年会论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 王加阳;面向海量数据的粗糙集理论与方法研究[D];中南大学;2005年
2 杜莹;全球多分辨率虚拟地形环境关键技术的研究[D];中国人民解放军信息工程大学;2005年
3 管群;VR-GIS技术在岩土工程中的应用[D];四川大学;2002年
4 周婧;P2P分布存储系统中海量数据的数据一致性维护技术研究[D];国防科学技术大学;2007年
5 崔滨;海量数据实时三维交互式显示关键技术研究[D];上海大学;2010年
6 庄毅;海量多媒体数据库的高效查询处理[D];浙江大学;2007年
7 陶钧;海量数据P2P分布式稳固存储方法与优化研究[D];国防科学技术大学;2008年
8 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
9 彭涛;基于特征和实例的海量数据约简方法研究[D];华中科技大学;2011年
10 刘静;协同进化算法及其应用研究[D];西安电子科技大学;2004年
中国硕士学位论文全文数据库 前10条
1 陈娜;基于Hadoop平台的海量数据处理应用[D];吉林大学;2012年
2 吴金虎;基于Hadoop的大型网站海量数据的统计与应用[D];南京大学;2012年
3 王桂强;海量数据分析处理方法的研究[D];上海交通大学;2010年
4 杨才远;浮标基海量数据高速传输技术研究[D];哈尔滨工程大学;2010年
5 姜锋;基于Hadoop平台的海量数据处理研究及应用[D];北京邮电大学;2013年
6 李宇;基于分布式数据库和数据挖掘技术的统计报表系统的分析与设计[D];吉林大学;2006年
7 黄煜;海量数据迁移和报表自动生成的研究和实现[D];上海交通大学;2010年
8 莫映;真三维地理信息系统中海量数据处理技术的应用研究[D];首都师范大学;2004年
9 王璐;MIS系统中集成实时监控系统与三层C/S结构的应用[D];长春理工大学;2002年
10 李文;虚拟天文台环境下的海量数据存储与访问技术研究[D];天津大学;2007年
中国重要报纸全文数据库 前10条
1 安徽电力调度通信中心 袁林;征服电力调度海量数据[N];中国计算机报;2005年
2 ;MSP软件系统:海量数据的归档[N];中国计算机报;2006年
3 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
4 任续烨;海量数据我来处理[N];中国计算机报;2004年
5 汪小意;搜数网:从海量数据中搜索未来[N];第一财经日报;2006年
6 子文;ADIC StorNext/SAN存储海量数据[N];通信产业报;2003年
7 ;满足海量数据处理[N];网络世界;2004年
8 记者 冯卫东;美开发出新型纳米内存器件[N];科技日报;2007年
9 中兴通讯;云存储铺就海量数据之路[N];通信产业报;2011年
10 本报记者 周源;向海量数据开战[N];网络世界;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978