收藏本站
收藏 | 论文排版

基于MapReduce的结构化查询机制的设计与实现

范波  
【摘要】:随着Web2.0网络应用和云计算服务的兴起和发展,海量数据的存储和处理是其主要的特性,新型互联网应用的新特性对传统的数据管理技术提出了新的挑战。传统的关系型数据管理系统在应对海量数据和急速增长的数据时,遇到了难以克服的难题,海量数据存储和超大规模计算的特点,使数据管理技术关注的重点从一致性C(Consistency)、可用性A(Availability)转向了可用性A(Availability)和分区耐受性P(Partition Tolerance),即在扩展性和可用性方面提出了更高的要求。已有的新型数据管理系统很好的满足了这两方面的要求,相比关系型数据管理系统,它们只支持基于Key上的条件和范围查询,而基于多列的条件和范围查询是数据管理系统一个普遍的需求,而已有的系统主要是通过依靠MapReduce强大的运算能力来全表扫描来实现,使查询性能随着数据规模的增长而变得效率不高。针对多维查询效率低的情况,本文在设计与实现了一套大规模分布式结构化数据存储系统LDS3基础上,还设计了一种基于MapReduce的性能较高、可靠性较强的、低存储开销的分布式查询机制。整个分布式结构化数据管理系统的所包括的基本工作和主要特色: 1.在底层基于P2P的分布式存储系统的基础上,设计与实现了一套类BigTable的分布式结构化数据管理系统,主要包括:采用基于Linux C++设计了一套MapReduce的分布式计算框架和建立在这个计算框架上的分布式结构化数据管理系统。 2.通过将表数据的多个副本采用不同的存放格局来加速多维查询。初始创建表的时候需要指定行记录的主键,而在本系统中除了指定主键外,还支持在其他列上创建索引,然后将表记录按照主键和各索引列分别排序,并按照这个顺序进行物理存储。针对主键和索引列上的条件和范围查询,首先通过子表服务器与子表的映射关系,将结果集的锁定在尽可能少的子表上,由于表的副本是按照主键和索引列有序存储,进而将结果集定位在子表的某一段连续的表记录,最大程度上减少了查询过程中的表数据的随机访问次数。结合基于MapReduce的分布式计算框架(DVCP),并行的在表数据的各副本并行进行过滤查询。 3.通过设计与实现基于Bitcask的底层存储模型,相比基于MapFile的存储引擎,在效率和设计的复杂度方面具有明显的优势。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘波;范士明;刘华;;一种面向实时数据库存储引擎的设计与实现[J];计算机技术与发展;2011年08期
2 陈臻;冷昊;;海纳百川——人人网海量存储系统Nuclear开发手记[J];程序员;2010年09期
3 丁艺明;;社交网数据库技术分析[J];程序员;2010年07期
4 刘宇;;虚拟化环境下的数据库集群系统构建与性能分析[J];计算机与现代化;2011年08期
5 王社伟;杨海成;莫蓉;;面向航空发动机装配管理的动态表单系统研究[J];计算机工程与设计;2011年08期
6 姜承尧;陈庆奎;钱剑飞;;一种基于闪存固态硬盘的辅助缓冲池设计[J];计算机系统应用;2011年08期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 陈虎;唐海浩;廖江苗;彭江峰;;面向批量插入优化的并行存储引擎MTPower[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
2 张萍;;MyISAM存储引擎的分析与改进[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
3 马永成;肖诗斌;王弘蔚;施水才;;MySql嵌入式存储引擎的研究和实现[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 周大;钱岭;郭磊涛;齐骥;;HugeTable:一种面向电信行业的云数据仓库[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 李刚;;用vb开发调度命令票系统[A];第三届安徽自然科学学术年会安徽省电机工程学会2005年学术年会论文集[C];2005年
6 周军锋;魏蕊;郭景峰;;面向更新的扩展Dewey编码[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
7 黄宇凯;王晓玲;周傲英;;LEO:基于序列化的XML文档高效查询处理方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
8 程学先;;基于B/C/S结构的办公自动化系统[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
9 丁灵;黄宇凯;王晓玲;胡大斌;周傲英;;基于序列化方法实现有效的无序XML查询[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 邢春晓;周立柱;李蕾;李骅竞;;基于数字图书馆应用的XML数据库性能评测研究[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
中国博士学位论文全文数据库 前2条
1 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
2 韩忠明;基于XML的数据查询和信息检索集成化系统研究[D];东华大学;2006年
中国硕士学位论文全文数据库 前10条
1 范波;基于MapReduce的结构化查询机制的设计与实现[D];电子科技大学;2011年
2 唐海浩;面向批量插入优化的数据库并行存储引擎[D];华南理工大学;2010年
3 元张毅;高速数据网络中实时流量监测相关技术研究[D];北京邮电大学;2011年
4 廖江苗;多核处理器上的并行B+树索引算法研究与实现[D];华南理工大学;2010年
5 王威;MySQL数据库源代码分析及存储引擎的设计[D];南京邮电大学;2012年
6 李亚伟;MySQL的存储安全的研究与实现[D];华中科技大学;2011年
7 金威;蒙古文信息检索模型的研究[D];内蒙古大学;2009年
8 陈俊全;语义数据上使用混合图的快速有效的关键字查询[D];上海交通大学;2011年
9 李博多;大规模稀疏关系数据索引技术研究[D];哈尔滨工业大学;2008年
10 张伟奇;基于关系型数据库的RDF存储引擎[D];天津大学;2012年
中国重要报纸全文数据库 前10条
1 鲍丽春;可插式数据存储引擎:MySQL走向企业级的保障[N];计算机世界;2007年
2 边歆;MySQL:成长的烦恼[N];网络世界;2008年
3 本报记者 于翔;咫尺天涯间 BI与搜索的融合之路[N];网络世界;2007年
4 ;IBM TotalStorage掀虚拟存储新风[N];中国计算机报;2003年
5 ;“毒蛇”出洞[N];计算机世界;2006年
6 李建忠;Yukon中的XML[N];计算机世界;2004年
7 ;新一代数据管理利器:[N];计算机世界;2005年
8 朱泉峰;IBM存储产品面向信息生命周期管理[N];计算机世界;2007年
9 杭州市政府办公信息处理中心 王琦;分层次激活应用[N];计算机世界;2002年
10 李梅;存储的未来:固态磁盘取代硬盘 网格取代SAN[N];计算机世界;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978