收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

XML文档搜索中的查询处理技术研究

刘喜平  
【摘要】: 由于有着可扩展性和自描述性等特点,XML格式得到了越来越多的采用,其结果是产生了大量以XML格式表示的文档。随着XML文档的大量涌现,用户迫切地需要对XML文档进行有效地查询。但是由于XML文档结构比较松散,往往存在大量的文本(尤其是在以文本为中心的XML文档中),用户难以了解XML文档的结构;而且XML查询语言比较复杂,用户亦难以掌握XML查询语言,这使得以XML数据库技术为代表的XML精确查询技术不能满足用户的需求,在此背景下,信息检索(IR)方式的XML文档搜索由于其用户友好性而受到了越来越多人的注意。 目前,传统的信息检索技术比较成熟,但它们主要是针对HTML文档和文本文档,没有考虑XML文档的结构信息,无法体现XML信息检索的特点。随着XML文档的急剧增长,传统的搜索引擎已很难满足用户需求,XML信息检索将会成为下一代搜索引擎发展的重要方向之一,也将在众多行业如网络信息检索、数字图书馆等领域得到广泛的使用。 本文研究了XML文档搜索中的查询处理技术,研究范围从用户提交XML查询开始,到产生最终的检索结果呈现给用户为止,研究的问题是对于用户提交的XML查询,如何有效地产生以合适的形式表示的、有意义的检索结果。 在处理XML文档上的关键词或者带关键词的查询时,有两个问题非常重要: (1)XML文档中存在大量的标签,使得XML文档形成一种树状结构,于是XML文档搜索可以在一个更细的粒度上进行,即以子树或者结点为单位来匹配和返回。有效的XML文档搜索需要对XML文档中不同的结点(标签)有一个清晰的理解,如哪些部分更重要,应该返回哪些部分等。 (2)XML数据模型比较复杂,XML文档中各种信息掺杂在一起,而XML检索表达式的表达能力相当有限,于是当用过于简单的表达式来查询复杂的XML文档时,往往存在歧义和语义上的模糊。有效的XML文档搜索需要对XML查询有一个深入的理解,理解查询的意图,这样才能忠实地反映出XML文档与查询之间的相关性。 基于这样的出发点,本论文将语义作为核心,基于XML文档的语义来选择答案结点,通过查询语义来反映XML查询的意图,通过查询和结果语义上的相关性来对查询结果计分,围绕查询语义来返回组织良好的检索结果。我们认为,这种特点抓住了XML信息检索的关键,能够产生较好的检索效果。 具体来说,研究了以下内容: (1)研究了XML文档检索中答案结点的语义推导问题。在对XML文档进行检索时,首先遇到的一个问题是,对于用户给出的查询,返回什么样的结点/检索结果是符合用户查询意图的。针对这一问题,我们分析了理想答案结点应满足的准则,以及XML文档中的结构信息、内容信息和用户查询信息与理想答案结点之间的关系。提出了根据XML结点类型和用户查询信息推导答案结点语义的方法。 (2)针对当前XML文档搜索系统存在的一些缺陷,研究了XML关键词检索结果的聚类问题,提出了一个新的聚类方法,该方法的核心是答案结点与关键词查询的匹配模式。为了实现该聚类方法,我们提出了两种实现方法:Lazy方法和Eager方法,Eager方法能够保证产生与Lazy方法相同的聚类结果,但效率更高。还研究了聚类产生的簇的排序以及簇内部的检索结果的排序。 (3)研究了有效的结构与内容检索(Content and Structure, CAS)查询处理问题,分析了已有的方法面临的问题,即不够灵活,有针对性地提出了一种新的CAS查询处理方法。这种方法以内容为主,结构为辅,能够较好地克服当前技术的一些问题,并特别适用于异构环境下的XML信息检索。 (4)设计和开发了一个XML文档检索的原型系统XSense,它支持关键词检索和结构与内容检索。特别探索了支持XML文档搜索的索引结构,提出了一种新的XML编码结梅LCT编码,围绕LCT编码构建了XML结构和内容索引,支持各种结构查询和内容查询。 本文的创新性工作体现在: (1)提出了一种新的XML检索的答案结点语义。一方面利用结点的语义,要求答案结点必须是有意义的;另一方面分析了XML查询与查询匹配之间的关系,要求在答案结点中关键词匹配之间的联系必须是有意义的。实验测试表明,与现有的答案结点语义相比,该方法能够更好地产生有意义的答案结点。 (2)提出了一种新的面向XML文档搜索的结果聚类方法,以及高效的实现算法。这种聚类方法的特点是:它可以实现对XML查询的消歧,将不同语义的检索结果归类到不同的簇中;可以大大节省用户在浏览检索结果时的无用劳动;有助于用户更全面地理解检索结果集,也有助于扩展用户兴趣。大量的实验结果证明,这种聚类方法是有效的,能够产生有意义的聚类结果,而且聚类结果对于用户而言也是有帮助的。从时间效率上看,该聚类方法可以有效地实现。 (3)提出了一种新的XML结构与内容检索的思路,该思路不同于其他工作的特点是:它采取了一种分解——检索——合并的思路,并且在检索中,采取以内容为主,结构为辅的思路,使得该方法具有很好的灵活性和自适应性。实验证明,该方法无论是对于同构文档还是异构文档都能取得很好的检索结果。 通过本论文的研究,取得了一些重要的研究成果,这些成果丰富并推动了XML信息检索的研究,并为后续研究打下了坚实的基础。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郭晓磊;赵利;聂铁铮;;支持全文检索的XQuery查询处理及优化的研究[J];计算机与数字工程;2010年08期
2 张博;耿志华;周傲英;;一种支持高效XML路径查询的自适应结构索引[J];软件学报;2009年07期
3 赵尔平;王聪华;雒伟群;党红恩;张兆基;;基于自动机XML正则路径表达式查询研究[J];计算机应用;2010年09期
4 王宏志;骆吉洲;李建中;;图结构XML文档上子图查询的高效处理算法[J];软件学报;2009年09期
5 蒋美仙;路燕;;一种新的基于编码的XML结构连接算法[J];山东科技大学学报(自然科学版);2009年02期
6 唐智勇;吴刚;;基于Web Service柔性异构数据集成系统设计及查询处理[J];微电子学与计算机;2010年08期
7 刘振中;董道国;薛向阳;;对XML数据索引的回顾[J];计算机科学;2004年04期
8 成杰峰,王国仁,于戈;用后缀树构造XML路径字典加快路径查询评价速度[J];小型微型计算机系统;2004年04期
9 江腾蛟;万常选;;针对XML文档集的关键词检索结果排序[J];计算机工程;2007年02期
10 吕建华,王国仁,于戈;XML数据的路径表达式查询优化技术[J];软件学报;2003年09期
11 黄少荣;新一代XML数据查询语言XQuery[J];华南金融电脑;2005年07期
12 苗红涛;陶世群;;TwigEN:一种新的小枝模式匹配算法[J];电脑开发与应用;2009年02期
13 陈红琳;;农产品供应链中信息集成方法研究[J];信息系统工程;2009年08期
14 丁峥;白云;;基于结构化连接的多版本XML文档查询处理[J];苏州科技学院学报(自然科学版);2006年04期
15 廖述梅;万常选;徐升华;;XML信息检索探究[J];情报学报;2007年02期
16 江源,孙建伶;XML查询语言[J];计算机时代;2002年01期
17 韩京宇;徐立臻;董逸生;;Web数据仓库研究综述[J];计算机科学;2004年11期
18 苏明柿,张守志;XML文档过滤算法YFilter的一种改进技术[J];计算机工程;2005年21期
19 彭利民;;基于XML的分布式数据库查询平台的设计与实现[J];福建电脑;2006年08期
20 于光;李琼;;XML存储方式之比较研究[J];考试周刊;2008年32期
中国重要会议论文全文数据库 前10条
1 黄宇凯;王晓玲;周傲英;;LEO:基于序列化的XML文档高效查询处理方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 张蕊;高晓东;宫学庆;周傲英;;XML数据流上的树型查询处理[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 李慧婷;李建中;王宏志;骆吉洲;;XML数据磁盘存储结构LDF&B及其查询处理方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 杨建武;陈晓鸥;;XML文档集的聚类研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 王宏志;李建中;骆吉洲;何振瀛;;基于路径压缩XML数据上的twig查询处理[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 周军锋;孟小峰;张新;黄静;;XML数据流上基于关键字的多查询处理[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 赵明;骆吉洲;李建中;高宏;;XCluster:基于聚类支持查询的XML多文档压缩方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
8 刘德喜;万常选;刘喜平;焦贤沛;;XML检索中的标签权重设置模型[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
9 熊蜀光;李建中;王宏志;高宏;;一种基于编码的图模型XML数据的存储与查询处理方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 唐智勇;吴刚;;基于Web Service柔性异构数据集成系统设计及查询处理[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
2 张万松;支持压缩域查询的XML数据压缩方法研究[D];哈尔滨工程大学;2005年
3 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
4 钟敏娟;基于检索结果聚类的XML伪反馈技术研究[D];江西财经大学;2012年
5 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
6 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
7 王洪强;XML索引及查询处理技术研究[D];哈尔滨工业大学;2009年
8 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
9 江锦华;XML小枝模式查询处理技术研究[D];浙江大学;2009年
10 李瑞轩;异构信息集成中的查询处理与优化研究[D];华中科技大学;2004年
中国硕士学位论文全文数据库 前10条
1 詹欣;基于实体化视图的XML查询处理方法的研究[D];哈尔滨工业大学;2006年
2 李义国;基于不完全约束的XML查询处理关键技术研究[D];燕山大学;2010年
3 李丽娟;XML文档结构相似度研究及在文档聚类中应用[D];山东大学;2007年
4 赵九震;XML数据查询的关键技术研究[D];山东大学;2010年
5 范瑞英;基于LazyDFA的XML数据流查询优化技术研究[D];内蒙古科技大学;2009年
6 宗金良;XML结构连接算法的研究[D];山东大学;2006年
7 徐磊;基于XML的关系数据库优化方法研究[D];北京化工大学;2010年
8 孟清;基于语义缓存的并行查询技术的设计与实现[D];国防科学技术大学;2004年
9 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
10 金勇俊;基于XBRL的电子政务应用研究[D];对外经济贸易大学;2007年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 奎儒;国际邮件查询处理问答[N];中国邮政报;2002年
5 奎儒;国际邮件查询处理问答[N];中国邮政报;2002年
6 ;为XML标准定标准[N];中国计算机报;2001年
7 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
8 本报记者 刘学习;Sybase ASE15从容面对数据爆炸[N];计算机世界;2005年
9 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
10 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978