收藏本站
《上海交通大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

海量数据分析处理方法的研究

王桂强  
【摘要】: 随着信息技术的发展,很多领域对信息系统的建设处在转型阶段。以金融领域为例,后续IT建设的重心逐步从建设“核心业务交易系统”进入到构建“以客户为中心、以风险控制和盈利分析为目标的信息管理系统”的发展阶段。这种转型需要对原有业务系统的数据进行统一分析,实现数据跨部门、跨时间和跨平台共享。为此海量数据分析处理需求强烈。 MapReduce是由Google公司首先提出的,一种能在大型计算机集群上并发地处理海量数据的框架模型。使用者通过指定一个Map函数将输入数据转化成为一系列中间键-值对,然后由一个自定义的reduce函数将具有相同键的值聚集起来,将结果输出。很多现实世界对海量数据的处理,都可以用这种模型来表示。 并行数据库作为一种高性能的数据库系统,是并行技术和数据库技术结合的产物,它大大提高了关系数据库中对数据的处理效率。常见的并行数据库根据并行架构的不同,可以分为共性内存、共性磁盘、无共享的三种架构方式。 本文在分析Mapreduce和并行数据库的基础上,提出了一种并发处理海量数据的更通用、更可扩展的平台大概架构。并对相关的产品进行了详细的测试。 首先,我们分析了MapReduce和并行数据库对海量数据处理的并行方式,具体的了解了两种方法的发展以及实现思路。接着,我们从多个方面对两者进行了详细的比较,得到了它们的优缺点,为后续的设计打下了基础。接着我们提出了三种MapReduce和SQL结合的方式,分别是MapReduce引擎增加SQL层、MapReduce调度SQL语句、SQL语句调用MapReduce,通过三种结合方式的比较,我们认为SQL语句调用MapReduce的方法是最好的一种。 然后,我们提出了将并行数据库和MapReduce结合的大概设计框架,这种架构采用客户端、主控节点、分支节点的三点式架构。其中,主控节点负责收集与处理其他节点的各种信息;分支节点负责任务的具体执行。接着,我们通过MapReduce的自定义函数对SQL进行了扩展,提出了将MapReduce嵌入到SQL语句里面的方式和具体的执行方式。接着,我们描述了数据分布策略和镜像处理的概要情况。 最后,我们对当前比较优秀的并行数据库Greenplum进行了详细的测试,测试数据以真实的一家证券公司的业务数据为基础,从数据加载、统计分析执行等几个方面进行了性能比较。得到了其针对海量数据处理的性能结果。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前2条
1 娄希安;海量数据存储与查询策略的优化研究[D];大连海事大学;2012年
2 薛正元;基于云计算技术的邮件过滤机制研究与实现[D];郑州大学;2012年
【参考文献】
中国期刊全文数据库 前1条
1 陈勤,江虹;Hash函数的设计与分析[J];杭州大学学报(自然科学版);1999年01期
【共引文献】
中国期刊全文数据库 前3条
1 罗利民;黄汉永;;网页防篡改技术的一种实现[J];福建电脑;2008年11期
2 古俐明;;Lotus Domino/Notes中数字签名技术的分析与改进[J];广东技术师范学院学报;2007年07期
3 任升强,郑成林;基于SET协议的一种身份认证新模型[J];中国计量学院学报;2000年01期
中国硕士学位论文全文数据库 前7条
1 何宇;一种基于改进B-树的结构化P2P网络搜索模型的设计与仿真[D];中南大学;2011年
2 蒋志雄;安全电子交易研究[D];华中科技大学;2004年
3 陈开兵;电子选举协议的研究与应用[D];合肥工业大学;2006年
4 李东林;基于Linux的嵌入式实时数据库访问算法研究与实现[D];长春理工大学;2008年
5 刘平;概率统计在计算机密码学中的应用[D];华中师范大学;2008年
6 黄炳权;基于Windows机制GSM手机软件开发[D];西安电子科技大学;2006年
7 杜祖平;基于CDN和P2P的流媒体分发系统的研究和实现[D];电子科技大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 刘真;刘峰;张宝鹏;马飞;高石玉;;云计算模型在铁路大规模数据处理中的应用[J];北京交通大学学报;2010年05期
2 王美珍;李芝棠;吴汉涛;;改进的贝叶斯垃圾邮件过滤算法[J];华中科技大学学报(自然科学版);2009年08期
3 眭俊明;姜远;周志华;;基于频繁项集挖掘的贝叶斯分类算法[J];计算机研究与发展;2007年08期
4 陈景年;黄厚宽;田凤占;付树军;;用于不完整数据的选择性贝叶斯分类器[J];计算机研究与发展;2007年08期
5 范金金;刘鹏;;朴素贝叶斯分类器的独立性假设研究[J];计算机工程与应用;2008年34期
6 邓维斌;王国胤;洪智勇;;基于粗糙集的加权朴素贝叶斯邮件过滤方法[J];计算机科学;2011年02期
7 郭本俊;王鹏;陈高云;黄健;;基于MPI的云计算模型[J];计算机工程;2009年24期
8 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期
9 王修君;沈鸿;;一种基于增量学习型矢量量化的有效文本分类算法[J];计算机学报;2007年08期
10 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期
中国重要会议论文全文数据库 前1条
1 薛亚楠;廖闻剑;彭艳兵;;垃圾邮件行为识别研究[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
中国博士学位论文全文数据库 前2条
1 侯昉;海量网络存储系统中的多级缓存技术研究[D];华南理工大学;2011年
2 王美珍;垃圾邮件行为模式识别与过滤方法研究[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 毛远宏;面向SAN和NAS融合的安全方案研究[D];西安电子科技大学;2009年
2 苗帅;海量数据存储与全文检索[D];江苏科技大学;2011年
3 陈坚强;DB2数据库索引性能调整与优化[D];上海交通大学;2011年
4 余琴;基于设计模式的企业级应用框架研究[D];华中科技大学;2004年
5 李中华;基于.NET的模式实现和应用[D];四川大学;2005年
6 李晓路;数据仓库中海量数据存储与管理的若干关键技术研究[D];北京邮电大学;2006年
7 杨旸;电视台磁带信息管理系统的设计与实现[D];山东大学;2007年
8 庄英;关系型数据库的模糊查询研究[D];南京信息工程大学;2008年
9 邵林;高速海量数据存储技术研究[D];国防科学技术大学;2007年
10 宋宗余;DAS模型下加密数据库的分层访问控制研究[D];广州大学;2008年
【二级参考文献】
中国期刊全文数据库 前4条
1 陈勤;票据真伪鉴别算法[J];杭州电子工业学院学报;1997年02期
2 田畅;用于RSA签名算法的HASH函数的作用及限制[J];通信保密;1989年03期
3 梁军;;DES中S盒设计准则的分析[J];通信保密;1990年02期
4 梁军;;一种化简S盒表达式的简明方法[J];通信保密;1990年02期
【相似文献】
中国期刊全文数据库 前10条
1 李东,冯玉才,张东;基于扩展分区的分布与并行数据库级联扩展技术[J];小型微型计算机系统;2003年02期
2 陆丽娜,孟虹,魏恒义,杨麦顺;并行数据库的改进Hash划分方法及并行Join算法[J];计算机研究与发展;2000年02期
3 杨全胜;徐宏炳;王能斌;;基于网络集群系统的并行数据库中数据均衡分布研究[J];计算机科学;2001年08期
4 ;天梭TS20000高性能集群应用淄博地税数据库信息平台[J];科技浪潮;2007年10期
5 李建中;并行数据操作算法和查询优化技术[J];软件学报;1994年10期
6 黄璇;数据库技术的未来发展方向[J];计算机工程与应用;1995年05期
7 吴会松;对几种数据库系统结构的设计评注[J];计算机时代;1997年02期
8 许向阳,蔡季萍,张勇;并行数据库PDBMS的物理设计方法[J];计算机工程与应用;2002年12期
9 徐淑颋,孙永强;并行数据库实时多版本并发控制协议性能研究[J];计算机学报;2002年02期
10 扈立新;;并行数据库的3个查询算法综述[J];今日科苑;2007年20期
中国重要会议论文全文数据库 前10条
1 蒋跃龙;陈红;周庆庆;王珊;;并行数据库结点故障的处理机制[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 陈虎;张云泉;柳锴;李玉成;;基于机群架构的并行数据库中间件系统改进研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 肖震;陈红;王珊;;并行数据库外围工具设计和实现[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 王伟平;李建中;高宏;;基于连接代价图的并行数据库关系存储方式选择算法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 李建中;郭金柱;;一种并行数据库的多维存储结构及其构造和数据加载算法[A];第十一届全国数据库学术会议论文集[C];1993年
6 金树东;冯玉才;王元珍;;并行数据库多查询的动态负载分配[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年
7 张坜;孙国强;;集装箱运输系统ETL的设计与实现[A];第七届全国信息获取与处理学术会议论文集[C];2009年
8 张丽艳;庄海军;聂军洪;;基于海量数据测量的逆向工程与快速原型集成技术研究[A];特种加工技术——2001年中国机械工程学会年会暨第九届全国特种加工学术年会论文集[C];2001年
9 洪晓光;王海洋;王新军;;并行数据库复杂关系查询优化的一种方法[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年
10 陈建海;王建弟;李子川;;基于数据仓库的地籍管理信息系统框架设计[A];地理空间信息技术及其应用论坛论文集[C];2005年
中国重要报纸全文数据库 前10条
1 安徽电力调度通信中心 袁林;征服电力调度海量数据[N];中国计算机报;2005年
2 ;MSP软件系统:海量数据的归档[N];中国计算机报;2006年
3 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
4 任续烨;海量数据我来处理[N];中国计算机报;2004年
5 汪小意;搜数网:从海量数据中搜索未来[N];第一财经日报;2006年
6 子文;ADIC StorNext/SAN存储海量数据[N];通信产业报;2003年
7 联想集团高性能服务器事业部 陆卫东;联想携安腾 构建并行数据库[N];中国计算机报;2004年
8 记者 冯卫东;美开发出新型纳米内存器件[N];科技日报;2007年
9 ;满足海量数据处理[N];网络世界;2004年
10 中兴通讯;云存储铺就海量数据之路[N];通信产业报;2011年
中国博士学位论文全文数据库 前10条
1 王加阳;面向海量数据的粗糙集理论与方法研究[D];中南大学;2005年
2 杜莹;全球多分辨率虚拟地形环境关键技术的研究[D];中国人民解放军信息工程大学;2005年
3 管群;VR-GIS技术在岩土工程中的应用[D];四川大学;2002年
4 庄毅;海量多媒体数据库的高效查询处理[D];浙江大学;2007年
5 周婧;P2P分布存储系统中海量数据的数据一致性维护技术研究[D];国防科学技术大学;2007年
6 陶钧;海量数据P2P分布式稳固存储方法与优化研究[D];国防科学技术大学;2008年
7 崔滨;海量数据实时三维交互式显示关键技术研究[D];上海大学;2010年
8 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
9 彭涛;基于特征和实例的海量数据约简方法研究[D];华中科技大学;2011年
10 刘静;协同进化算法及其应用研究[D];西安电子科技大学;2004年
中国硕士学位论文全文数据库 前10条
1 王桂强;海量数据分析处理方法的研究[D];上海交通大学;2010年
2 杨才远;浮标基海量数据高速传输技术研究[D];哈尔滨工程大学;2010年
3 李宇;基于分布式数据库和数据挖掘技术的统计报表系统的分析与设计[D];吉林大学;2006年
4 黄煜;海量数据迁移和报表自动生成的研究和实现[D];上海交通大学;2010年
5 莫映;真三维地理信息系统中海量数据处理技术的应用研究[D];首都师范大学;2004年
6 王璐;MIS系统中集成实时监控系统与三层C/S结构的应用[D];长春理工大学;2002年
7 李文;虚拟天文台环境下的海量数据存储与访问技术研究[D];天津大学;2007年
8 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
9 郭乃明;基于VC++的海洋平台安全保障系统及其数据管理优化设计[D];北京化工大学;2008年
10 曾雪;海量数据的快速查询算法研究[D];南京邮电大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026