收藏本站
《北京邮电大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的数据分析系统设计和实现

刘彤  
【摘要】:在海量数据处理中,如何高效、快速地从海量数据中挖掘出潜在价值并转化为决策依据的能力,将成为企业的核心竞争力。数据分析的重要性毋庸置疑,但随着数据的产生速度越来越快,数据量越来越大,数据处理技术遇到的挑战也越来越大。如何从海量数据中挖掘出有用的价值,分析出深层含义,进而转化为可操作的信息,已经成为各互联网企业不得不处理的问题。 本文对目前海量数据处理遇到的数据收集、数据存储、数据分析和海量数据查询等问题进行分析。通过与传统的基于关系型数据库的数据分析模型和基于Hadoop的海量数据系统之间的比较,可以看出Hadoop在海量数据处理过程中,有着易扩展、成本低、吞吐量大等特点。本文分析了传统的关系型数据库在海量数据查询遇到的问题。对NoSQL数据库进行了介绍,并与传统的关系型数据库进行了比较,总结了NoSQL数据库的优缺点,并对其使用的场合进行总结。对MapReduce的性能进行了性能分析,得出了MapRecue框架中的CPU、I0和网络开销的量化分析的结果,并对MapReduce性能提出优化意见。以此为基础设计了基于Hadoop的数据分析系统,并在实际中得到测试和应用。 本文主要进行了如下方而的工作: 1.分析和比较NoSQL数据库和传统的关系型数据库的优缺点。 2.量化分析了MapReduce框架编程中的IO、CPU和网络开销等问题,并给出优化意见。 3.采用分布式数据收集系统,对海量数据进行收集,解决了日志实时收集的问题。 4.采用Hadoop框架,使用HDFS解决了海量数据的存储问题,使用MapReduce编程框架解决了海量数据处理的问题。 5.采用Avatar Node方式对Hadoop框架的单NameNode节点进行改进,增强Hadoop集群的稳定性。 6.设计基于Hadoop的海量数据处理系统,并进行测试和在实际中得到应用。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前4条
1 张华强;;关系型数据库与NoSQL数据库[J];电脑知识与技术;2011年20期
2 程莹;张云勇;房秉毅;徐雷;;云计算时代的数据库研究[J];电信技术;2011年01期
3 浦江;网络计算模式的演变与发展[J];电子技术;2001年01期
4 孙广中;肖锋;熊曦;;MapReduce模型的调度及容错机制研究[J];微电子学与计算机;2007年09期
中国硕士学位论文全文数据库 前5条
1 贾文娟;基于hive分布式计算与数据挖掘的关联性营销的设计与实现[D];北京交通大学;2011年
2 姜文;基于Hadoop平台的数据分析和应用[D];北京邮电大学;2011年
3 张洪娜;云计算平台中数据存储与文件管理的研究[D];广东工业大学;2011年
4 张晓强;MapReduce在Web日志挖掘中的应用[D];电子科技大学;2011年
5 张文峰;基于MapReduce模型的分布式计算平台的原理与设计[D];华中科技大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 胡光民;周亮;柯立新;;基于Hadoop的网络日志分析系统研究[J];电脑知识与技术;2010年22期
2 李鑫;张鹏;;Hadoop集群公平调度算法的改进与实现[J];电脑知识与技术;2012年01期
3 李彬;张英伟;;NoSQL非关系型数据库负载均衡的实现[J];电脑知识与技术;2012年06期
4 王锴;施水才;王涛;吕学强;;基于MapReduce的术语权重计算方法研究[J];电信科学;2011年11期
5 付蝶;;浅谈网络计算的演变与发展[J];达县师范高等专科学校学报(自然科学);2006年05期
6 曾理;王以群;;Hadoop集群和单机数据处理的耗时对比实验[J];硅谷;2009年19期
7 唐亚男;;列式数据库Vertica的特性分析[J];电脑与电信;2011年05期
8 胡涛;;基于MapReduce模型遗传算法的一种改进与实现[J];电子设计工程;2013年05期
9 杨春霞,王圣洁,王春民;谈计算模式的演变及其对海洋地质数据处理的影响[J];海洋地质动态;2004年02期
10 李成华;张新访;金海;向文;;MapReduce:新型的分布式并行计算编程模型[J];计算机工程与科学;2011年03期
中国重要会议论文全文数据库 前3条
1 王喜春;;普适GIS初探[A];湖北省测绘学会2006年度科学技术交流会论文集[C];2006年
2 华中杰;徐锡山;杨树强;田胜利;;MapReduce本地优先作业调度策略研究与实现[A];第九届中国通信学会学术年会论文集[C];2012年
3 田胜利;徐锡山;杨树强;华中杰;;针对HBase的MapReduce访问接口的优化[A];第九届中国通信学会学术年会论文集[C];2012年
中国博士学位论文全文数据库 前2条
1 何离庆;网络环境下的智能化农业信息平台研究[D];重庆大学;2002年
2 魏群义;材料信息学基础及材料信息学平台工程应用研究[D];重庆大学;2008年
中国硕士学位论文全文数据库 前10条
1 李力军;基于移动Agent的分布式计算研究与实现[D];哈尔滨工程大学;2010年
2 吴贵鑫;云计算中的MapReduce并行编程模式研究[D];河南理工大学;2010年
3 陈莉;承压类特种设备远程在线监控及事故追忆系统开发与设计[D];山东大学;2010年
4 门庆洁;基于RIA的考务排课系统设计与实现[D];吉林大学;2011年
5 施岩;云计算研究及Hadoop应用程序的开发与测试[D];北京邮电大学;2011年
6 李波;基于Hadoop的海量图象数据管理[D];华东师范大学;2011年
7 陈艳金;MapReduce模型在Hadoop平台下实现作业调度算法的研究和改进[D];华南理工大学;2011年
8 杨永刚;云计算下关联分类技术的研究与实现[D];电子科技大学;2011年
9 孔舟;分布式虚拟化计算平台高可靠任务拆分系统的设计与实现[D];电子科技大学;2011年
10 陈璐;基于云计算的海量数据存储技术的研究及应用[D];武汉科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 李莉莎;;关于NOSQL的思考[J];中国传媒科技;2010年04期
2 陈涛;;云计算理论及技术研究[J];重庆交通大学学报(社会科学版);2009年04期
3 董会国;;基于Flooding的非结构化P2P网络搜索算法的研究[J];长沙通信职业技术学院学报;2010年02期
4 黄进,尹治本;关联规则挖掘的Apriori算法的改进[J];电子科技大学学报;2003年01期
5 王昊鹏;刘旺盛;;虚拟化技术在云计算中的应用初探[J];电脑知识与技术;2008年25期
6 李煜民;章才能;谢杰;;云计算环境下的数据存储[J];电脑知识与技术;2010年05期
7 黄贤立;;NoSQL非关系型数据库的发展及应用初探[J];福建电脑;2010年07期
8 奚建清;游进国;汤德佑;肖伟吉;;基于MapReduce的封闭立方体并行计算方法[J];华南理工大学学报(自然科学版);2009年01期
9 宋擒豹,沈钧毅;Web日志的高效多能挖掘算法[J];计算机研究与发展;2001年03期
10 沈达阳;孙茂松;;万维网知识挖掘方法的研究[J];计算机科学;2000年02期
中国重要报纸全文数据库 前1条
1 中科院计算所 罗杰文;[N];计算机世界;2006年
中国硕士学位论文全文数据库 前5条
1 万至臻;基于MapReduce模型的并行计算平台的设计与实现[D];浙江大学;2008年
2 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年
3 邓自立;云计算中的网络拓扑设计和Hadoop平台研究[D];中国科学技术大学;2009年
4 朱鹤祥;Web日志挖掘中数据预处理算法的研究[D];大连交通大学;2010年
5 李亭枫;面向网络用户行为模式发现的数据挖掘技术探索[D];电子科技大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 赵波;;服务器端动态生成图表在银行自助业务数据分析系统中的运用实例[J];甘肃水利水电技术;2009年12期
2 陈程;乔运华;;基于数据仓库模型的运营分析系统[J];制造业自动化;2009年12期
3 张丽英;;轨道交通信息管理系统中的数据仓库技术[J];软件导刊;2010年02期
4 张丽英;;论轨道交通信息管理系统中的数据仓库[J];软件导刊;2010年03期
5 朱文华;王敏一;曹平;;梅钢平整分卷线PDA系统的设计及应用[J];梅山科技;2010年02期
6 罗国忠;;建立电力营销数据分析系统[J];科技资讯;2007年32期
7 罗国忠;;建立电力营销数据分析系统[J];科技资讯;2007年33期
8 罗国忠;;建立电力营销数据分析系统[J];科技创新导报;2008年03期
9 王煜;郭军;;基于BMS报表的视频点播情况分析系统[J];天津科技;2011年03期
10 张敬帅;张丕状;白雪萍;;基于虚拟仪器的多通道数据分析系统设计[J];电子技术应用;2011年04期
中国重要会议论文全文数据库 前10条
1 辛建峰;辛阳;;数据分析系统中的自定义量度方案设计实现[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
2 郝佩;刘琪;黄音;林建;杨少友;李亦学;;整合的蛋白质组学数据分析系统[A];中国蛋白质组学首届学术大会论文摘要集[C];2003年
3 王治国;王薇;訾凯;任鹏;;临床检验方法确认与性能验证数据分析系统(MVS)的开发与应用[A];中华医学会第九次全国检验医学学术会议暨中国医院协会临床检验管理专业委员会第六届全国临床检验实验室管理学术会议论文汇编[C];2011年
4 尚屹;朱琦;;国家持久性有机污染物数据分析系统研究[A];2008中国环境科学学会学术年会优秀论文集(下卷)[C];2008年
5 于岱峰;钟亚平;;人体肌肉力量数据分析系统的研制[A];第十一届全国运动生物力学学术交流大会论文汇编(摘要)[C];2006年
6 宫良伟;潘智勇;乔京利;;矿山压力监测数据分析系统的开发[A];煤炭开采新理论与新技术——中国煤炭学会开采专业委员会2007年学术年会论文集[C];2007年
7 郑慧娟;周嘉元;李斌;;水电站生产数据分析系统及其现场应用[A];中国水力发电工程学会信息化专委会2010年学术交流会论文集[C];2010年
8 于岱峰;吴耀宇;;人体背力、握力肌肉力量数据分析系统的设计与实现[A];2006年全国体育仪器器材与体育系统仿真学术报告会论文集[C];2006年
9 徐显海;曹鸣;;SAS与VB的集成开发方法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
10 范凯;杨松林;王勇;安永成;;一种自控自航船模试验数据分析系统及其应用[A];2008年船舶水动力学学术会议暨中国船舶学术界进入ITTC30周年纪念会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 袁毅;苏州:数据分析系统精准问诊城市交通[N];人民公安报·交通安全周刊;2011年
2 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
3 刘红科;数据分析为税源管理导航[N];中国税务报;2007年
4 吴光辉;西昌铁警应用高科技防货盗[N];人民公安报;2007年
5 齐瑞普 祁卫新;首矿计控室和烧结厂烧结信息数据系统投用[N];中国冶金报;2008年
6 陶利军;路桥当好企业经济分析师[N];中国工商报;2007年
7 陈蔚新;树视图关系型数据库[N];计算机世界;2002年
8 本报记者 蒙克;颠覆传统数据库的“玩具”[N];网络世界;2009年
9 谢文砚;关于印度洋海啸的四个假设[N];中国计算机报;2005年
10 中科院兼职教授、研究生导师、人民大学兼职教授、北京;商业智能的三个层次[N];中国计算机报;2005年
中国博士学位论文全文数据库 前10条
1 梁本亮;基于ArcGIS的上海市超限高层建筑工程数据库建设[D];同济大学;2007年
2 周栩;本体工程中若干问题的研究[D];吉林大学;2011年
3 刘念;DAS模型中的数据库加密与密文检索研究[D];北京邮电大学;2010年
4 李洪超;多回路气动伺服弹性系统鲁棒稳定性分析方法研究[D];西北工业大学;2006年
5 康俊锋;云计算环境下高分辨率遥感影像存储与高效管理技术研究[D];浙江大学;2011年
6 杨谊;基于Snake模型的细胞图像分割新方法研究[D];第一军医大学;2005年
7 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
8 杨涛;基于多传感器融合的油管无损检测与缺陷量化技术研究[D];天津大学;2004年
9 高占凤;大型结构健康监测中信息获取及处理的智能化研究[D];北京交通大学;2010年
10 钱新华;基于数字化工厂概念的乙烯装置生产过程模拟及其应用[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘彤;基于Hadoop的数据分析系统设计和实现[D];北京邮电大学;2012年
2 王凯;基于J2EE和多维数据模型的金融数据分析系统[D];西安电子科技大学;2005年
3 苏哲;RSS新闻聚合型网站的数据分析系统[D];北京交通大学;2010年
4 吴伟;监控及数据分析系统在污水处理厂的应用研究[D];昆明理工大学;2005年
5 崔润龙;电动汽车CAN总线车载记录仪及数据分析系统的开发研究[D];天津大学;2005年
6 李玉坤;KDD在感光材料数据分析系统中的应用研究[D];华北电力大学(河北);2005年
7 范伟;数据仓库在财产保险业务数据分析中的应用[D];重庆大学;2004年
8 房纪涛;基于PC104总线的数据采集仪与数据分析系统的研究开发[D];山东理工大学;2006年
9 钱曙光;基于DSP的USB口数据分析系统研究与实现[D];浙江大学;2003年
10 古喜庆;基于数据仓库和数据挖掘技术的客户数据分析系统设计与实现[D];北京邮电大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026