收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

HBase内存索引系统的研究与实现

卢文博  
【摘要】:随着计算机技术和数据库技术的快速发展,人类需要储存的数据量极大的增长,传统的储存、处理数据的理念已经不能适用于海量数据的环境。为了满足当前数据存储和处理的需求,现在的数据系统是建立在分布式系统之上的。HBase是目前最受欢迎开源分布式数据库软件之一。HBase的设计主要目的是稳定的存储海量的数据,在其它方面HBase的性能并没有我们期望的高。HBase读取时对数据的行健(rowkey)有着很大的依赖性,这点尤其限制HBase在复杂条件下的查询性能。在传统的数据库中索引技术的使用可以极大的提高数据库的查询效率,以此为鉴本文尝试建立HBase非rowkey列的索引来提高HBase在复杂条件下的查询性能。本文中索引树采用了重庆大学提出的HT树索引,为了优化索引树的空间利用率对HT树的插入和删除算法进行了一些优化。本文中将索引树存储在Spark分布式内存计算系统中,Spark是一个效率极高的分布式内存计算软件,将索引树存储在Spark之上能快速的提高索引的处理效率。在索引系统的实现时采用了二级索引的设计架构,在这种设计下每个查询都是由两部分组成的。查询时我们可以先在索引系统中获取到rowkey,拿到rowkey之后在从HBase读取数据。这种分段查询的思想虽然在查询条件里有rowkey的情况下性能比HBase稍低,但极大的提高了查询条件里没有rowkey时HBase的查询效率,使得HBase在复杂查询条件下的适用性提高。本文同时也实现了一个较为精简的索引系统。索引系统由索引中间件和应用程序接口(API)两部分组成。索引中间件是系统的核心所在,实现了数据插入时索引树的建立,数据查询时索引树的查询,数据删除时索引树的修改,同时也实现了索引树、HBase、Spark以及应用程序接口之间的数据交互。应用程序接口主要有Java语言的访问接口和Web Service的访问接口两种。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;本期广告商索引表[J];电子与电脑;2000年01期
2 ;本期编辑内容产品索引表[J];电子与电脑;2000年02期
3 ;本期广告商索引表[J];电子与电脑;2000年02期
4 ;本期编辑内容产品索引表[J];电子与电脑;2000年04期
5 ;本期广告商索引表[J];电子与电脑;2000年04期
6 ;本期编辑内容产品索引表[J];电子与电脑;2000年11期
7 ;本期广告商索引表[J];电子与电脑;2000年11期
8 ;本期编辑内容产品索引表[J];电子与电脑;1999年05期
9 ;本期编辑内容产品索引表[J];电子与电脑;1999年08期
10 ;本期编辑内容产品索引表[J];电子与电脑;1999年09期
11 ;“索引之星”可大海捞针[J];每周电脑报;1999年13期
12 涂建国;索引工作刍议[J];图书馆;1996年04期
13 ;本期编辑内容产品索引表[J];电子与电脑;1999年10期
14 ;《电子元器件应用》2001年第4期(总第20期)厂商信息索引表[J];电子元器件应用;2001年04期
15 ;《电子元器件应用》2001年第3期(总第十九期)厂商信息索引表[J];电子元器件应用;2001年03期
16 杨建国,杨健辉,杨正浩,邹小理;索引表与逐步回归算法的改进与应用[J];石河子大学学报(自然科学版);2004年06期
17 ;《电子元器件应用》2001年第7期(总第23期)厂商信息索引表[J];电子元器件应用;2001年07期
18 罗小平,孟浚,韦巍;方志索引的计算机辅助编制[J];工业控制计算机;2002年06期
19 王伟;;基于Hadoop的分布式索引集群的研究[J];电脑知识与技术;2011年35期
20 谷峥征;李春玲;;浅谈如何在SQL Server中使用索引[J];新课程(教研版);2009年08期
中国重要会议论文全文数据库 前9条
1 石玮峰;杨冬青;唐世渭;关涛;;COBASE的索引管理技术[A];第十二届全国数据库学术会议论文集[C];1994年
2 王彦祥;王广林;;“索引之星”的研制和索引编制[A];2004年辞书与数字化研讨会论文集[C];2004年
3 王晓辉;王柏;;通过有效使用索引优化Oracle应用系统性能[A];第九届全国青年通信学术会议论文集[C];2004年
4 孙云峰;陈渝;史元春;张宝鹏;张曦;江文峰;;基于高精度室内定位系统的移动物体轨迹索引[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
5 王先胜;乔健;汪卫;何震瀛;;AX-Tree:基于RDBMS的粒度自适应XML数据索引[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 邵雄凯;卢炎生;程学先;;用建立本地广播索引表的方法改善移动客户机的性能[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 薛巍;李维佳;穆飞;舒继武;;PDPI:一种面向多核的可扩展并行索引算法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 杨彬;洪晓光;;基于XML大文档的动态索引[A];’2004计算机应用技术交流会议论文集[C];2004年
中国博士学位论文全文数据库 前5条
1 何婧;面向云计算的多维数据索引研究[D];电子科技大学;2016年
2 马武彬;面向信息物理融合系统的资源索引构建和查询优化技术研究[D];国防科学技术大学;2014年
3 张帆;搜索引擎中索引表求交和提前停止技术优化研究[D];南开大学;2012年
4 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
5 余利华;分布式数据存储和处理的若干技术研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 周黎明;SYBASE数据库的索引压缩的设计与实现[D];上海交通大学;2015年
2 徐康;组学大数据的检索系统设计与实现[D];哈尔滨工业大学;2015年
3 周文辉;基于HBase和内存数据库的索引和查询技术研究与系统实现[D];南京大学;2014年
4 付佳;基于LSM树的NoSQL数据库索引研究[D];北京理工大学;2016年
5 王万乐;基于聚类的海量文档集分布式索引构建方法[D];山东大学;2016年
6 魏亚洲;面向大规模RDF数据的高效率语义索引关键技术研究[D];天津大学;2014年
7 卢文博;HBase内存索引系统的研究与实现[D];重庆大学;2016年
8 王健;DWMS中索引选择策略的研究与实现[D];东华大学;2010年
9 胡玉乐;列存储DWMS中的索引关键技术研究[D];东华大学;2011年
10 张慧;一种基于位立方体的XML索引方式[D];山东大学;2007年
中国重要报纸全文数据库 前1条
1 裘宗燕;轻松做索引[N];中华读书报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978