收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

XML索引及查询处理技术研究

王洪强  
【摘要】:XML是互联网联合组织(W3C)创建一组规范,以便于软件开发人员和内容创作者自由地组织信息,其目的不仅在于满足不断增长的网络应用需求,同时还希望借此能够确保在通过网络进行交互合作时,具有良好的可靠性与互操作性。良好的数据存储格式、可扩展性、高度结构化、便于网络传输是XML主要的四大特点,决定了其卓越的性能表现。 目前,面向XML数据的存储和查询已经有大量的技术提出,但是这些技术并不能够满足高效XML数据处理的需要,较成熟XML处理技术对系统资源要求高或采用基于关系数据库的存储方案,其处理方式多为无索引支持,对数据规模较大或数据结构复杂的XML数据处理性能较差。 本文以高效处理XPath查询为目标,研究了多种适合XML文档树的节点标记法,并将节点集组织成相应的索引结构,以及提出了高效的算法用于在索引上处理XPath查询,本文主要研究成果如下: (1)基于聚合绝对路径标记法的索引结构及查询处理算法。聚合绝对路径是以XML标准的父-子元素位置信息为基础的,因此该标记法直接支持XML查询的Position谓词。聚合绝对路径标记法把具有相似位置信息的节点集聚合为索引中的一个节点,有效提高了查询处理的速度。基于聚合绝对路径标记法组织的索引结构,我们提出了分枝过滤算法和关联路径匹配算法用于高效的处理查询,实验表明以上两种算法优于TwigStack算法并有良好的延展性。 (2)基于链路径树标记法的索引结构及查询处理算法。将文档中的节点按照源路径同构划分为多个子树,每个子树的各层节点集均为同构节点集。全部子树的叶节点集为文档空间节点集的一个划分,按叶节点集创建的索引结构将等同与1-Index索引结构。由于子树特征被记录,基于链路径树标记法的索引结构将可以快速的得到节点集的祖先集并可以高效处理带有分枝的查询。基于链路径树标记法的索引结构,我们提出了关联路径连接算法来高效的完成查询处理,实验表明关键点连接算法优于TwigStack算法并有良好的延展性。 (3)基于源路径树标记法的索引结构及查询处理算法。我们通过节点标记的区间来取代单独的节点标记,并改进索引的存储机制使得算法的输入输出最小化,改进的查询处理算法对匹配各分枝的链路径分组,有相同关联路径的可以连接,否则抛弃。实验表明,改进的标记法具有较小的存储空间,较小的输入输出代价以及更快的执行效率。 (4)基于素数序列标记法的FB索引的创建算法以及查询处理算法。提出使用素数或素数的乘积的序列来标识一个节点的方法,如果两个节点的标记值相同,那么这两个节点就一定是FB同构的。这种标记法不仅有助于快速的建立FB索引,更可以高效的完成FB索引上的查询处理。此外,我们还给出了FB索引上的区间标记法与CCPI的创建过程,该两种编码创建过程无须在建立FB索引后二次创建,仅需与FB索引创建过程一起对文档使用SAX解析器分析一次即可得到。这样,我们可以在FB索引的区间标记法上使用TwigStack算法执行查询处理,在FB索引的CCPI标记法上使用关联路径连接算法执行查询处理。我们还给出了基于素数序列标记法的查询处理算法,即素数整除匹配算法,该算法可以高效的判定某节点是否有某分枝子结构。实验表明素数整除匹配算法优于FB索引上的TwigStack算法以及CCPI并有很好的延展性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 马欢;;XML在电子商务中的应用[J];China's Foreign Trade;2011年14期
2 李恒;;元数据管理系统的研究与实现[J];电脑知识与技术;2011年13期
3 谢峰;;双XML模式在异构数据交换中的应用研究[J];黑龙江科技信息;2011年21期
4 顾锦江;;基于AS技术的计算机网络虚拟实验的开发[J];计算机应用与软件;2011年07期
5 周强;;XML在动态网页中的应用[J];科技传播;2011年15期
6 周长敏;唐型基;;XML技术在考试系统中的应用研究[J];电脑知识与技术;2011年23期
7 陈爱华;;基于XML和Web Service的异构数据库数据交换[J];武汉船舶职业技术学院学报;2011年04期
8 黎娜;张庆吉;;移动数据库同步技术及其应用[J];现代计算机(专业版);2011年10期
9 刘智琦;徐奕奕;;XML在电子商务中的应用[J];黑龙江科技信息;2011年20期
10 朱兴统;许波;;一种基于粗糙集理论的XML数据挖掘模型[J];科学技术与工程;2011年20期
11 张宗平;张咏;秦慧;;基于Web Services的数据交换平台的应用研究[J];现代计算机;2011年07期
12 李传良;;XML数据访问与数据传输优化[J];科学之友;2011年16期
13 朱兴统;;基于DOM的XML文档到关系数据库的数据转换方法[J];电脑知识与技术;2011年13期
14 曹风华;;比较分析XML与HTML[J];电脑与信息技术;2011年04期
15 晏立;沈锐;;Java序列化技术的探讨[J];红河学院学报;2011年04期
16 查文利;;基于XML的教学课件系统设计和实现[J];硅谷;2011年13期
17 兰慧红;邓欢;;基于XML的网络课件动态目录树的设计与实现[J];广西教育学院学报;2011年03期
18 纪宏伟;;基于MathML的WEB数学公式实现[J];科技经济市场;2011年07期
19 庄青青;;XML技术在数字图书馆跨库检索中的应用[J];情报探索;2011年07期
20 钱同海;彭显刚;焦悦东;;基于Web数据挖掘的节电降耗实时分析系统设计[J];电力科学与工程;2011年08期
中国重要会议论文全文数据库 前10条
1 包小源;宋再生;唐世渭;杨冬青;王腾蛟;;SuffIndex——一种基于后缀树的XML索引结构[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 李智;唐常杰;栾江;汪锐;贾晓兵;;基于索引的XML数据流的变化检测[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 陈波;洪晓光;;基于改进树状结构的XML文档简单路径查询多线程实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
5 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 张龙;周傲英;郑仕辉;梁宇奇;;一种可行的层次型XML仓库索引结构[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 张昱;吴年;;XML数据流的过滤与查询技术[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 李东;张静玲;王亮明;;一种XML集成索引结构[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 宗金良;李玉忱;任磊;;一种基于XN-Tree编码的XML数据库索引技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 李慧婷;李建中;王宏志;骆吉洲;;XML数据磁盘存储结构LDF&B及其查询处理方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 雷向欣;XML索引和过滤查询若干关键技术研究[D];复旦大学;2005年
2 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
3 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
4 王洪强;XML索引及查询处理技术研究[D];哈尔滨工业大学;2009年
5 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
6 张晨静;XML关键字过滤技术[D];复旦大学;2011年
7 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
8 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年
9 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
10 阎红灿;面向Web的XML文档数据管理及分类检索技术研究[D];天津大学;2009年
中国硕士学位论文全文数据库 前10条
1 陈波;XML文档数据查询技术研究[D];山东大学;2005年
2 黄赟炜;RDF-XML文档的索引查询技术研究与实现[D];解放军信息工程大学;2007年
3 房东尧;XML型数据库索引的建立与更新[D];吉林大学;2011年
4 赵一雪;基于XML数据库的数据查询优化的研究[D];哈尔滨工程大学;2006年
5 陈金森;XML搜索引擎中索引技术的研究[D];燕山大学;2006年
6 李长志;XML资源模块化浏览技术及应用研究[D];重庆大学;2008年
7 詹欣;基于实体化视图的XML查询处理方法的研究[D];哈尔滨工业大学;2006年
8 魏长芳;基于二次索引技术的XML查询研究[D];中国石油大学;2010年
9 黎玲利;XML数据流上的TOP-K关键字查询处理[D];哈尔滨工业大学;2010年
10 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
9 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
10 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978