收藏本站
《北京交通大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义的XML查询及规范化研究

蔺旭东  
【摘要】:摘要:XML在诸多领域中得到了越来越广泛的应用,发展基于XML的成熟完善的数据管理系统,正成为研究者努力的目标。而确立与XML的数据特点相适应的查询方法和规范化机制,是基于XML的数据管理系统走向实用化的基础。为此,我们选取XML查询和XML规范化作为本文的两个主要研究方向。 目前,XML查询的研究主要沿着两个方向展开:结构化查询和关键字查询。结构化查询强调查询用例与XML节点在路径上的匹配,导致查询者必须了解所查询XML数据的结构才能给出查询用例,且查询用例极易受到XML结构变化的影响。而关键字查询则只是寻求关键字与XML节点标签的匹配,使得查询结果中必然包含许多不相关的节点,查询的准确性无法保证。 在XML规范化的研究方面,目前主要以XML节点的路径信息作为研究的基础。这一方面带来表达式冗长、表达意义不明确、易受到XML结构变化影响等表达性缺陷,另一方面也带来无关节点参与、约束缺失或约束冗余等语义性缺陷,使得我们无法依靠它们对XML中复杂的数据关系进行准确的描述和分析。 针对上述的缺陷,本文在开展工作时最大的改进,就是在XML节点的路径信息和标签信息之外,强调对节点语义信息和用户所掌握的常识性信息的充分利用,从而在提高XML查询方法的实用性、效率和准确性,以及表达XML数据依赖关系和消除XML数据冗余方面,取得了显著的突破。 具体来讲,我们主要开展了下列的工作: (1)在XML数据模型中引入实体片断的概念,并将XML节点与实体片断相关联,使XML数据模型具备了反映节点语义的能力,从而为开展基于语义的XML查询研究和XML规范化研究奠定了基础。 我们对XML文档的数据存储特点进行了重新审视,在对XML节点进行分类的基础上,提出了实体片断的概念,将XML文档看作由一个个实体片断而不仅仅是独立的XML节点所组成的层次结构。进而将XML节点与实体片断关联起来,使它们具备了语义的特性。这正是我们开展基于语义的XML查询研究和XML规范化研究的基础所在。 (2)提出了一种基于关键字分组分类表达式的XML查询方法,在用户指明查询关键字语义的情况下,实现查询过程的语义匹配,使XML查询方法在实用性和查询的准确性方面有了很大改进。 首先,我们提出了一种新的类关键字XML查询语言——关键字分组分类表达式,使得用户在不了解XML结构、不掌握复杂语法的前提下,可以利用其掌握的常识性信息,赋予查询用例中各关键字以明确的语义;其次,在关键字分组分类表达式中引入多样化的操作符,进一步增强了其语义表达能力;再次,提出了一种新的XML编码方式——C-Dewey编码,对XML节点与实体片断间的关联关系进行了标识;最后,构造FQRI查询算法,实现了查询用例中的关键字与XML节点在语义上的匹配。实验结果表明,FRQI算法能够在保证效率的前提下返回与用户意图高度匹配的查询结果。 (3)提出了两阶段XML关键字查询方法,在用户未指明查询关键字语义的条件下,实现查询过程的语义匹配,提高了语义匹配的XML查询方法的适用性。 首先,利用XML树中相同标签节点的数量庞大但语义有限这一有利条件,XML节点语义被公式化为节点语义三元组;其次,利用节点语义三元组建立起一种新型XML索引结构——节点语义索引,使得按照语义对XML节点进行检索成为可能;最后,构造TPKQ算法,将XML查询首先在XML节点语义集合中展开,然后再扩展至整个的XML文档,从而实现查询用例中的关键字与XML节点在语义上的匹配。实验表明,TPKQ算法在查询效率和查询精度上较之传统关键字查询算法都有较大改进。 (4)提出了一种基于XML节点语义特性的XML规范化方案,改善了XML数据依赖的表达方式,提高了XML范式消除数据冗余的有效性。 第一步,提出了XML属性依赖的概念,来表示XML中的数据依赖关系,使XML节点在数据依赖表达式中第一次不以其路径信息,而是以能够反映其语义特性的实体属性的形式来进行标识。第二步,借助于对XML数据依赖表达方式的改进,我们进一步提出了新的XML主键定义和XML范式;第三步,采用“丢失-恢复”的方法,证明了XML范式在消除数据冗余上的有效性。
【学位授予单位】:北京交通大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.10

【相似文献】
中国期刊全文数据库 前10条
1 马欢;;XML在电子商务中的应用[J];China's Foreign Trade;2011年14期
2 李恒;;元数据管理系统的研究与实现[J];电脑知识与技术;2011年13期
3 谢峰;;双XML模式在异构数据交换中的应用研究[J];黑龙江科技信息;2011年21期
4 顾锦江;;基于AS技术的计算机网络虚拟实验的开发[J];计算机应用与软件;2011年07期
5 周强;;XML在动态网页中的应用[J];科技传播;2011年15期
6 周长敏;唐型基;;XML技术在考试系统中的应用研究[J];电脑知识与技术;2011年23期
7 陈爱华;;基于XML和Web Service的异构数据库数据交换[J];武汉船舶职业技术学院学报;2011年04期
8 黎娜;张庆吉;;移动数据库同步技术及其应用[J];现代计算机(专业版);2011年10期
9 刘智琦;徐奕奕;;XML在电子商务中的应用[J];黑龙江科技信息;2011年20期
10 朱兴统;许波;;一种基于粗糙集理论的XML数据挖掘模型[J];科学技术与工程;2011年20期
中国重要会议论文全文数据库 前10条
1 王颖;刘国华;;基于语义的关系数据XML视图自动化生成[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 赵文兵;杨冬青;廖湖声;;关键字在XML模式中的结构特征研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 朱皓;杨卫东;魏正军;施伯乐;;XML关键字搜索中一个高效的寻找XLCA的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
5 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
7 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
10 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
9 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
10 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年
2 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
3 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
4 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
5 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
6 张晨静;XML关键字过滤技术[D];复旦大学;2011年
7 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
8 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
9 李荷华;面向智能体的化工过程运行系统信息集成模型研究[D];华南理工大学;2003年
10 朱晓冬;数字博物馆关键技术研究[D];西北大学;2004年
中国硕士学位论文全文数据库 前10条
1 黎军;综合文档语义与用户查询语义的XML关键字查询研究[D];西南大学;2011年
2 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
3 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
4 王旭磊;基于CBR的电子商务网站智能设计系统的研究[D];青岛大学;2005年
5 李志明;基于Web服务的在线考试系统应用研究与实现[D];广东工业大学;2005年
6 江静;基于XML的公文管理系统设计与应用研究[D];南京理工大学;2005年
7 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
8 朱瑜;工作流引擎研究与实现[D];电子科技大学;2005年
9 谢红;XML技术和B/S模式在职业教育与培训管理信息系统中的应用研究[D];重庆大学;2005年
10 郦金花;基于XML的MARC发布系统的设计与实现[D];苏州大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026