海量数据分析处理方法的研究
【摘要】:
随着信息技术的发展,很多领域对信息系统的建设处在转型阶段。以金融领域为例,后续IT建设的重心逐步从建设“核心业务交易系统”进入到构建“以客户为中心、以风险控制和盈利分析为目标的信息管理系统”的发展阶段。这种转型需要对原有业务系统的数据进行统一分析,实现数据跨部门、跨时间和跨平台共享。为此海量数据分析处理需求强烈。
MapReduce是由Google公司首先提出的,一种能在大型计算机集群上并发地处理海量数据的框架模型。使用者通过指定一个Map函数将输入数据转化成为一系列中间键-值对,然后由一个自定义的reduce函数将具有相同键的值聚集起来,将结果输出。很多现实世界对海量数据的处理,都可以用这种模型来表示。
并行数据库作为一种高性能的数据库系统,是并行技术和数据库技术结合的产物,它大大提高了关系数据库中对数据的处理效率。常见的并行数据库根据并行架构的不同,可以分为共性内存、共性磁盘、无共享的三种架构方式。
本文在分析Mapreduce和并行数据库的基础上,提出了一种并发处理海量数据的更通用、更可扩展的平台大概架构。并对相关的产品进行了详细的测试。
首先,我们分析了MapReduce和并行数据库对海量数据处理的并行方式,具体的了解了两种方法的发展以及实现思路。接着,我们从多个方面对两者进行了详细的比较,得到了它们的优缺点,为后续的设计打下了基础。接着我们提出了三种MapReduce和SQL结合的方式,分别是MapReduce引擎增加SQL层、MapReduce调度SQL语句、SQL语句调用MapReduce,通过三种结合方式的比较,我们认为SQL语句调用MapReduce的方法是最好的一种。
然后,我们提出了将并行数据库和MapReduce结合的大概设计框架,这种架构采用客户端、主控节点、分支节点的三点式架构。其中,主控节点负责收集与处理其他节点的各种信息;分支节点负责任务的具体执行。接着,我们通过MapReduce的自定义函数对SQL进行了扩展,提出了将MapReduce嵌入到SQL语句里面的方式和具体的执行方式。接着,我们描述了数据分布策略和镜像处理的概要情况。
最后,我们对当前比较优秀的并行数据库Greenplum进行了详细的测试,测试数据以真实的一家证券公司的业务数据为基础,从数据加载、统计分析执行等几个方面进行了性能比较。得到了其针对海量数据处理的性能结果。
|
|
|
|
1 |
李东,冯玉才,张东;基于扩展分区的分布与并行数据库级联扩展技术[J];小型微型计算机系统;2003年02期 |
2 |
陆丽娜,孟虹,魏恒义,杨麦顺;并行数据库的改进Hash划分方法及并行Join算法[J];计算机研究与发展;2000年02期 |
3 |
杨全胜;徐宏炳;王能斌;;基于网络集群系统的并行数据库中数据均衡分布研究[J];计算机科学;2001年08期 |
4 |
;天梭TS20000高性能集群应用淄博地税数据库信息平台[J];科技浪潮;2007年10期 |
5 |
李建中;并行数据操作算法和查询优化技术[J];软件学报;1994年10期 |
6 |
黄璇;数据库技术的未来发展方向[J];计算机工程与应用;1995年05期 |
7 |
吴会松;对几种数据库系统结构的设计评注[J];计算机时代;1997年02期 |
8 |
许向阳,蔡季萍,张勇;并行数据库PDBMS的物理设计方法[J];计算机工程与应用;2002年12期 |
9 |
徐淑颋,孙永强;并行数据库实时多版本并发控制协议性能研究[J];计算机学报;2002年02期 |
10 |
扈立新;;并行数据库的3个查询算法综述[J];今日科苑;2007年20期 |
11 |
付亚楠;王建华;;并行数据库极限加速比[J];哈尔滨师范大学自然科学学报;2009年06期 |
12 |
王于同,李剑;并行数据库负载平衡算法研究[J];计算机工程与应用;1998年11期 |
13 |
汪永琳,刘琼,郑若忠;并行数据库系统实现技术的研究[J];陕西工学院学报;2000年02期 |
14 |
李建中;优化处理并行数据库查询的并行数据流方法[J];软件学报;1998年03期 |
15 |
关心;欧增桂;王玲;;一种有效的并行数据库动态负载平衡连接算法[J];计算机工程与应用;2007年12期 |
16 |
王柯柯;崔英志;黄贤英;黄丽丰;;基于数据中心的企业应用系统整合平台架构的研究和设计[J];西南大学学报(自然科学版);2009年11期 |
17 |
李建中;并行数据库的查询处理并行化技术和物理设计方法[J];软件学报;1994年10期 |
18 |
陈佩佩,蒋蜀,谢立;一个基于Semijoin的并行join算法SBABJ~+[J];计算机研究与发展;1995年05期 |
19 |
庄毅,徐海力;一种改进的并行连接算法Diag-Join及其性能分析[J];计算机工程;2004年02期 |
20 |
吴会松;对当前几种数据库系统结构的设计评注[J];测试技术学报;1996年04期 |
|