收藏本站
《东北大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

XML查询模式匹配及文档过滤技术研究

宁博  
【摘要】:XML (eXtensible Markup Language)以其自描述性,跨平台交换性等特点,已经成为了网络上数据存储和数据交换的标准。互联网上越来越多的结构化或半结构化的数据采用XML格式存储和交换,对XML数据的查询处理及其文档过滤的研究显得日益重要。 本文对XML数据管理领域中的查询处理及其优化问题和XML文档过滤问题进行了深入的研究。Twig模式匹配是查洵处理问题中的核心问题,目前该问题吸引了大量学者对其进行研究,本文提出一种索引方法来提高twig模式匹配效率。目前对模式匹配问题的研究都集中在只包含后代轴和孩子轴的查询模式,对包含父亲轴和祖先轴的模式研究几乎是空白。同样在信息选择分发系统中,对大量订阅请求的管理和文档过滤算法足其核心研究内容。已有的对大量XPath表达式索引的方法只能处理只包含祖先轴和后代轴的XPath表达式,因此文档过滤算法只能通过只包含正向轴的XPath表达式来对文档进行过滤和分发。本文对查询处理优化技术和XML文档过滤技术进行了详细的分析和深入研究,提出解决以上新问题的解决方法,本文贡献点可概括如下: (1)对于查询处理中的twig查询,本文提出了一种新的索引结构C-Tree,该索引结构将XML文档中元素间的上下文索引起来,解决了传统标签流算法对于将XML文档分解为标签流过程中削弱大量上下文信息的问题。根据这个索引结构,本文提出了一套整体twig连接算法,来处理在不同类型文档上的twig模式匹配问题。通过借助C-Tree索引中的上下文信息,算法可以在标签流上跳跃大量不参与最终结果的节点,所以大大提高了twig查询处理的效率。 (2)目前的XML查询处理研究工作中,没有对包含父亲轴和祖先轴的模式的匹配算法的研究。为了提高XML数据库系统中提供给用户的查询表达式的表达能力,本文提出了一种新的查询模式xtwig模式。并且分析了xtwig模式的查询语义性质,提出了 一系列消除查询语义冗余的化简方法。通过分析xtwig模式匹配结果的特点,本文提出了一种新的数据结构XHyperCube来处理反向轴谓词间的关系,并提出了xtwig模式匹配算法XtwigStack。该算法是整体算法,即不需要将xtwig模式分解,而是在查询处理过程中,将xtwig模式当作一个整体对待。通过实验验证,算法XtwigStack是一个有效并且高效的算法。 (3)对于XML文档选择分发系统中的文档过滤算法,本文首先提了一种新的XPath表达式管理机制,称之为Nlndex。Nlndex具有很多优良的性质。首先NIndex支持包含父亲轴和祖先轴的查询模式,即在XML文档选择分发系统中,允许用户使用父亲轴和祖先轴来描述其订阅查询请求。其次,在Nlndex中,大量的订阅查询请求的公共子模式是被共享存储的,这样提高了XPath表达式的存储效率,而其使得在XML文档过滤的过程中,避免对查询公共子模式的多次访问和多次过滤处理。基于NIndex,本文提出一种新的XML文档过滤算法,将满足用户的订阅查询请求的XML文档分发给相应的用户。并且该算法是基于XML文档的SAX事件流的,基于流的访问方式是一种对XML文档天然并且高效的访问方式。实验证明,基于NIndex的XML文档过滤算法是一种准确并高效的过滤算法。
【学位授予单位】:东北大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 吴於茜;在平面设计软件中实现SVG格式文档输出[J];计算机工程与应用;2001年09期
2 张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期
3 李天庆,张毅,张冰,胡东成;基于XML的体育数据规格化存储技术研究[J];计算机工程与应用;2001年22期
4 张晓林;基于XML的信息组织与处理:1.XML技术体系[J];情报科学;2001年08期
5 李慧,何绍华;XML在图书馆系统中的实现技术[J];现代图书情报技术;2001年04期
6 谈春梅,段卫华,田质斌;标准文献数据库系统的设计与实现[J];现代图书情报技术;2001年06期
7 李景春,武港山,张福炎;基于转换的光盘文档库数据生成和浏览[J];小型微型计算机系统;2001年04期
8 周建洪,吴以群,庞引明,楼荣生;XML文件系统的设计[J];计算机工程与科学;2001年02期
9 袁琳,李秉严;SGML、HTML、XML的比较[J];四川图书馆学报;2001年03期
10 曹向东;基于JSP的数据访问技术[J];中国民航学院学报;2001年04期
中国重要会议论文全文数据库 前10条
1 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
9 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
10 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
中国博士学位论文全文数据库 前10条
1 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
2 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
3 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
4 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
5 张晨静;XML关键字过滤技术[D];复旦大学;2011年
6 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
7 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
8 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
9 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
10 李荷华;面向智能体的化工过程运行系统信息集成模型研究[D];华南理工大学;2003年
中国硕士学位论文全文数据库 前10条
1 张丽丽;XML文档过滤系统的模型构建与优化[D];山东大学;2011年
2 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
3 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
4 王旭磊;基于CBR的电子商务网站智能设计系统的研究[D];青岛大学;2005年
5 李志明;基于Web服务的在线考试系统应用研究与实现[D];广东工业大学;2005年
6 江静;基于XML的公文管理系统设计与应用研究[D];南京理工大学;2005年
7 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
8 朱瑜;工作流引擎研究与实现[D];电子科技大学;2005年
9 谢红;XML技术和B/S模式在职业教育与培训管理信息系统中的应用研究[D];重庆大学;2005年
10 郦金花;基于XML的MARC发布系统的设计与实现[D];苏州大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026