收藏本站
《江西财经大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

XML文档搜索中的查询处理技术研究

刘喜平  
【摘要】: 由于有着可扩展性和自描述性等特点,XML格式得到了越来越多的采用,其结果是产生了大量以XML格式表示的文档。随着XML文档的大量涌现,用户迫切地需要对XML文档进行有效地查询。但是由于XML文档结构比较松散,往往存在大量的文本(尤其是在以文本为中心的XML文档中),用户难以了解XML文档的结构;而且XML查询语言比较复杂,用户亦难以掌握XML查询语言,这使得以XML数据库技术为代表的XML精确查询技术不能满足用户的需求,在此背景下,信息检索(IR)方式的XML文档搜索由于其用户友好性而受到了越来越多人的注意。 目前,传统的信息检索技术比较成熟,但它们主要是针对HTML文档和文本文档,没有考虑XML文档的结构信息,无法体现XML信息检索的特点。随着XML文档的急剧增长,传统的搜索引擎已很难满足用户需求,XML信息检索将会成为下一代搜索引擎发展的重要方向之一,也将在众多行业如网络信息检索、数字图书馆等领域得到广泛的使用。 本文研究了XML文档搜索中的查询处理技术,研究范围从用户提交XML查询开始,到产生最终的检索结果呈现给用户为止,研究的问题是对于用户提交的XML查询,如何有效地产生以合适的形式表示的、有意义的检索结果。 在处理XML文档上的关键词或者带关键词的查询时,有两个问题非常重要: (1)XML文档中存在大量的标签,使得XML文档形成一种树状结构,于是XML文档搜索可以在一个更细的粒度上进行,即以子树或者结点为单位来匹配和返回。有效的XML文档搜索需要对XML文档中不同的结点(标签)有一个清晰的理解,如哪些部分更重要,应该返回哪些部分等。 (2)XML数据模型比较复杂,XML文档中各种信息掺杂在一起,而XML检索表达式的表达能力相当有限,于是当用过于简单的表达式来查询复杂的XML文档时,往往存在歧义和语义上的模糊。有效的XML文档搜索需要对XML查询有一个深入的理解,理解查询的意图,这样才能忠实地反映出XML文档与查询之间的相关性。 基于这样的出发点,本论文将语义作为核心,基于XML文档的语义来选择答案结点,通过查询语义来反映XML查询的意图,通过查询和结果语义上的相关性来对查询结果计分,围绕查询语义来返回组织良好的检索结果。我们认为,这种特点抓住了XML信息检索的关键,能够产生较好的检索效果。 具体来说,研究了以下内容: (1)研究了XML文档检索中答案结点的语义推导问题。在对XML文档进行检索时,首先遇到的一个问题是,对于用户给出的查询,返回什么样的结点/检索结果是符合用户查询意图的。针对这一问题,我们分析了理想答案结点应满足的准则,以及XML文档中的结构信息、内容信息和用户查询信息与理想答案结点之间的关系。提出了根据XML结点类型和用户查询信息推导答案结点语义的方法。 (2)针对当前XML文档搜索系统存在的一些缺陷,研究了XML关键词检索结果的聚类问题,提出了一个新的聚类方法,该方法的核心是答案结点与关键词查询的匹配模式。为了实现该聚类方法,我们提出了两种实现方法:Lazy方法和Eager方法,Eager方法能够保证产生与Lazy方法相同的聚类结果,但效率更高。还研究了聚类产生的簇的排序以及簇内部的检索结果的排序。 (3)研究了有效的结构与内容检索(Content and Structure, CAS)查询处理问题,分析了已有的方法面临的问题,即不够灵活,有针对性地提出了一种新的CAS查询处理方法。这种方法以内容为主,结构为辅,能够较好地克服当前技术的一些问题,并特别适用于异构环境下的XML信息检索。 (4)设计和开发了一个XML文档检索的原型系统XSense,它支持关键词检索和结构与内容检索。特别探索了支持XML文档搜索的索引结构,提出了一种新的XML编码结梅LCT编码,围绕LCT编码构建了XML结构和内容索引,支持各种结构查询和内容查询。 本文的创新性工作体现在: (1)提出了一种新的XML检索的答案结点语义。一方面利用结点的语义,要求答案结点必须是有意义的;另一方面分析了XML查询与查询匹配之间的关系,要求在答案结点中关键词匹配之间的联系必须是有意义的。实验测试表明,与现有的答案结点语义相比,该方法能够更好地产生有意义的答案结点。 (2)提出了一种新的面向XML文档搜索的结果聚类方法,以及高效的实现算法。这种聚类方法的特点是:它可以实现对XML查询的消歧,将不同语义的检索结果归类到不同的簇中;可以大大节省用户在浏览检索结果时的无用劳动;有助于用户更全面地理解检索结果集,也有助于扩展用户兴趣。大量的实验结果证明,这种聚类方法是有效的,能够产生有意义的聚类结果,而且聚类结果对于用户而言也是有帮助的。从时间效率上看,该聚类方法可以有效地实现。 (3)提出了一种新的XML结构与内容检索的思路,该思路不同于其他工作的特点是:它采取了一种分解——检索——合并的思路,并且在检索中,采取以内容为主,结构为辅的思路,使得该方法具有很好的灵活性和自适应性。实验证明,该方法无论是对于同构文档还是异构文档都能取得很好的检索结果。 通过本论文的研究,取得了一些重要的研究成果,这些成果丰富并推动了XML信息检索的研究,并为后续研究打下了坚实的基础。
【学位授予单位】:江西财经大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:G354

手机知网App
【引证文献】
中国博士学位论文全文数据库 前2条
1 郭春芬;基于本体的工艺知识管理关键技术研究[D];山东科技大学;2011年
2 温延龙;XML信息检索关键技术研究[D];南开大学;2012年
中国硕士学位论文全文数据库 前10条
1 郜峰;基于Web的磷化工工艺安全评价系统的设计与实现[D];郑州大学;2011年
2 高冉;山东省计量科学研究院计量业务管理系统的设计与实现[D];山东大学;2012年
3 曹阳;广告业务管理系统的设计与实现[D];山东大学;2012年
4 张毅;中信银行客户债项评价及分类管理系统的设计与实现[D];山东大学;2013年
5 张红;山东工业职业学院运输配送业务实训管理系统的设计与实现[D];山东大学;2013年
6 刘晓天;工艺品订单生产管理系统的设计与实现[D];山东大学;2013年
7 杨洋;中信银行法人信贷客户综合评价系统的设计与实现[D];山东大学;2013年
8 毕竞;东方电子公司人事管理系统的设计与实现[D];山东大学;2013年
9 任永辉;临沂市安监局作业场所职业病危害申报与备案系统的设计与实现[D];山东大学;2013年
10 刘伟伟;中医药大学附属医院科教管理系统的设计与实现[D];山东大学;2013年
【参考文献】
中国博士学位论文全文数据库 前3条
1 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
2 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
3 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 郭有强;梁玉清;王磊;姚保峰;朱洪浩;;基于语义相关实体片段的XML关键字查询[J];蚌埠学院学报;2012年01期
2 张晓琳,谭跃生,戴华忠;基于规则的XML查询语言研究[J];包头钢铁学院学报;2005年02期
3 宋爱琪;刘晓红;吴国洋;;GML时空聚类算法性能综述[J];测绘标准化;2011年04期
4 兰小机,闾国年,刘德儿,张书亮;基于XQuery的GML查询语言研究[J];测绘科学;2005年06期
5 阎红灿;王淑芬;朱晓亮;闫少宏;李敏强;;基于XQuery数据模型的XUL语言的定义和实现[J];东北师大学报(自然科学版);2008年04期
6 韩旭东;;一种基于非等概率更新的XML区间编码方法[J];电大理工;2008年02期
7 李新叶;李新芳;;基于XML的供电企业分布式异构信息的检索[J];电力系统通信;2008年03期
8 闵洁;蒋廷耀;王敏;;基于Web2.0的XML数据交换技术[J];电脑知识与技术;2008年35期
9 徐海渊,吴泉源,王怀民,贾焰;基于相容关系的XML索引机制[J];电子学报;2003年08期
10 李新叶;苑津莎;;一种快速的XML语义检索算法[J];电子学报;2007年11期
中国重要会议论文全文数据库 前10条
1 张晶;张云生;;基于XML的实时数据一致性查询机制[A];全国炼钢连铸过程自动化技术交流会论文集[C];2006年
2 徐建民;陈富节;朱松;;基于量化同义词扩展的贝叶斯网络结构化检索模型[A];2007'仪表,自动化及先进集成技术大会论文集(二)[C];2007年
3 张德;董逸生;;基于XML的异构数据源集成系统[A];第十六届全国数据库学术会议论文集[C];1999年
4 王钦克;周立柱;;基于模式的半结构化数据重组[A];第十六届全国数据库学术会议论文集[C];1999年
5 王秋月;黄锦辉;于旭;郑进雄;;半结构数据的非精确结构提取[A];第十六届全国数据库学术会议论文集[C];1999年
6 王静;杜小勇;王珊;;Web站点查询系统的研究和设计[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 杨良怀;唐世渭;王爱华;杨冬青;;XML代数及其查询优化方案[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
8 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
9 周巍;孙冰;战立明;吕建华;王国仁;于戈;;基于DOM模型的XML查询处理器的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 张龙;周傲英;郑仕辉;梁宇奇;;一种可行的层次型XML仓库索引结构[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国博士学位论文全文数据库 前10条
1 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年
2 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
3 汤华茂;基于语义的产业链网络化协同设计模式及关键技术研究[D];重庆大学;2010年
4 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
5 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
6 高飞;关联规则挖掘算法研究[D];西安电子科技大学;2001年
7 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
8 聂培尧;基于XML的半结构数据管理及数据集成问题研究[D];西北工业大学;2002年
9 李效东;自治异构数据源的集成查询处理[D];中国科学院研究生院(软件研究所);2002年
10 郑淑丽;Web信息集成系统及查询优化方法研究[D];合肥工业大学;2003年
中国硕士学位论文全文数据库 前10条
1 夏光磊;关于XML的关系数据库存储查询技术研究[D];山东科技大学;2010年
2 张麟;XML数据查询优化技术的研究[D];哈尔滨理工大学;2010年
3 欧伟强;Web信息挖掘的研究及应用[D];电子科技大学;2010年
4 唐红光;基于XPath路径表达式的选择度估算研究[D];中南林业科技大学;2007年
5 李媛媛;基于XQuery的NXD查询的研究[D];中南林业科技大学;2008年
6 商鹏程;结构化信息抽取—半自动化包装器的研究与应用[D];沈阳建筑大学;2011年
7 陈旭;政务信息资源目录服务检索技术的研究与实现[D];东华大学;2011年
8 单蓉;基于WEB挖掘的E-learning环境下的个性化教学平台研究[D];西安电子科技大学;2009年
9 赵炎;频繁子树优化查询策略[D];吉林大学;2011年
10 聂玲;数据集成系统中XML文档模式转换与查询的研究及实现[D];暨南大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 徐俊峰;;人事管理的逻辑[J];安徽大学学报(哲学社会科学版);2007年01期
2 李洁;;事业单位绩效考核问题及相关对策[J];安徽电子信息职业技术学院学报;2009年03期
3 张元彩;张云鹏;;安全评价方法在化工企业中的应用[J];安全;2008年01期
4 闻永萍;;基于JSP的电子商务网站开发[J];信息安全与技术;2011年11期
5 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
6 钦丽娟,曹剑峰,平建华,姜纪沂,王楠,沈媛媛,李升;模糊数学在郑州市水资源价值评价中的应用[J];吉林大学学报(地球科学版);2005年04期
7 杜晓山,孙若梅;中国小额信贷的实践和政策思考[J];财贸经济;2000年07期
8 罗延林;卢雪香;梁妙芝;;提高地级市气象影视广告业务竞争力的思考——以梧州气象影视为例[J];中国传媒科技;2012年06期
9 周来新,徐迪雄,邓军,解志杰,刘国祥;加强医院数字化建设 促进临床科研工作开展[J];重庆医学;2004年12期
10 周琳;;医院综合信息查询系统的建立及应用[J];重庆医学;2005年04期
中国重要会议论文全文数据库 前7条
1 全立明;裴晓方;;浅谈公共卫生学院及其附属医院科研管理——以四川大学华西公共卫生学院(华西第四医院)为例[A];2011第三届全国医学科研管理论坛暨江苏省医学科研管理学术年会论文汇编[C];2011年
2 章辉;;我国政府采购制度建设述评[A];中国制度经济学年会论文集[C];2006年
3 王子辉;叶云岳;;自动化仓储系统及直线电机的应用[A];第十二届中国小电机技术研讨会论文集[C];2007年
4 蔡淑荣;;唐钢能源计量网络管理系统[A];全国冶金自动化信息网2010年年会论文集[C];2010年
5 郑自成;严琼;;检定或校准结果验证中的常见问题分析[A];中国计量协会冶金分会2010年会论文集[C];2010年
6 汤鹏器;周乐群;马文荣;;自动化立体仓储系统在冷藏库中的应用[A];中国制冷学会第十七次团体会员大会暨第五届全国食品冷藏链大会论文集[C];2004年
7 周成跃;;全面推进和深化政府采购制度改革[A];中物联参阅(2001)[C];2001年
中国博士学位论文全文数据库 前9条
1 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
2 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年
3 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
4 周明建;基于本体的开放式知识管理研究[D];浙江大学;2004年
5 李进华;网格知识管理研究[D];武汉大学;2005年
6 李丹;科学研究活动中的知识管理研究[D];武汉大学;2005年
7 吴江;基于本体的知识管理系统关键技术研究[D];西北大学;2007年
8 张善辉;机械产品设计知识管理系统的研究[D];山东大学;2008年
9 陈春涛;数字化医院信息系统建设与实证研究[D];华中科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 杨勃;基于OGSA-DAI的异构数据源集成研究[D];郑州大学;2010年
2 曹婷婷;基于结构方程的商户小额贷款信用评价研究[D];大连理工大学;2010年
3 周辉;目标管理方法在机关党建责任制中的应用研究[D];天津大学;2010年
4 张禄文;城市生活垃圾破碎筛分设备工艺研究[D];昆明理工大学;2004年
5 陈建;领域本体的创建和应用研究[D];对外经济贸易大学;2006年
6 王海霞;论幼儿教师的教学动机及其激发[D];山东师范大学;2006年
7 张晖;铁路货运中心辅助决策支持系统研究[D];北京交通大学;2006年
8 涂婷婷;MVC设计模式在Web开发中的研究与应用[D];西南交通大学;2007年
9 杨海东;基于Ajax技术的异步搜索引擎研究与实现[D];南京信息工程大学;2007年
10 廖军;基于领域本体的信息检索研究[D];中南大学;2007年
【二级引证文献】
中国硕士学位论文全文数据库 前3条
1 周琳;基于本体的航天企业三维工艺指导知识表达及自组织方法研究[D];南京理工大学;2013年
2 朱斌斌;基于B/S架构的钢铁在线交易系统设计与实现[D];郑州大学;2013年
3 叶猛;电能计量设备一体化管理平台项目建设总体方案研究[D];华北电力大学;2013年
【二级参考文献】
中国期刊全文数据库 前5条
1 刘学文,陶晓鹏,于玉,胡运发;一种全新的全文索引模型——后继数组模型[J];软件学报;2002年01期
2 周水庚,胡运发,关佶红;基于邻接矩阵的全文索引模型(英文)[J];软件学报;2002年10期
3 曲卫民,孙乐,孙玉芳;XML数据查询中值匹配查询代价估计算法[J];软件学报;2005年04期
4 孔令波;唐世渭;杨冬青;王腾蛟;高军;;XML数据索引技术[J];软件学报;2005年12期
5 杨建武;陈晓鸥;;基于核矩阵学习的XML文档相似度量方法[J];软件学报;2006年05期
中国博士学位论文全文数据库 前1条
1 庞引明;基于结构化联接的XML查询模式匹配关键技术研究[D];复旦大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 胡明晓;;面向文档集抄袭的快速全文识别算法[J];计算机工程;2010年18期
2 沙莎,罗巍,罗三定;基于重心向量分类算法的概念特征提取方法[J];计算机工程;2005年14期
3 李维勇;;一种基于文档内容的语义标注方法[J];微计算机信息;2011年01期
4 朱颢东;蔡乐才;刘忠英;;一种改进的文本特征选择算法[J];现代电子技术;2008年08期
5 刘畅;罗强;;一种管理XML文档集合的高效方法[J];信息技术;2008年07期
6 王毅,刘云生,钟昊;XSD优化存储与解析[J];计算机工程;2005年19期
7 雷庆,吴扬扬;识别和抽取XM L文档中的关系信息及其出现模式[J];清华大学学报(自然科学版);2005年S1期
8 沈洪良,朱国进;基于Xindice的本体存储查询研究[J];计算机应用研究;2005年12期
9 郭以昆,吴立德,黄萱菁;大规模文本检索的现状及发展[J];计算机工程;1999年03期
10 王伟强;高文;段立娟;;Internet上的文本数据挖掘[J];计算机科学;2000年04期
中国重要会议论文全文数据库 前10条
1 杨建武;陈晓鸥;;XML文档集的聚类研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 蒋永锴;叶东毅;;基于稀疏非负矩阵分解的自动多文摘方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 李静静;闫宏飞;;中文网页信息检索测试集的构建、分析及应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 李文波;孙乐;;在查询反馈中改善文档聚类效果的策略研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 曹慧;;一种xml文档相似性距离的计算方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
6 胡珀;何婷婷;张勇;;基于网络化数据挖掘策略的中文多文档自动文摘研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 韩哲;王宏志;高宏;李建中;骆吉洲;;基于聚簇的XML文档近似连接方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 毕文静;沈华伟;刘悦;许洪波;程学旗;;基于企业环境的专家检索研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
10 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前4条
1 ;实现信息安全与共享的完美结合[N];中国计算机报;2005年
2 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
3 本报记者 周蓉蓉;CA整合存储管理软件[N];计算机世界;2004年
4 钟丽红 薛计泉;惠州局质量管理体系跨入电子化管理阶段[N];中国国门时报;2006年
中国博士学位论文全文数据库 前10条
1 贺瑞芳;时序多文档文摘相关技术研究[D];哈尔滨工业大学;2009年
2 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
3 马海涛;Active XML数据管理基础问题研究[D];哈尔滨工业大学;2009年
4 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
5 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
6 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
7 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
8 刘波;XML数据智能管理若干关键技术研究[D];中南大学;2008年
9 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年
10 王桐;XML内容路由关键技术研究[D];哈尔滨工程大学;2006年
中国硕士学位论文全文数据库 前10条
1 岳大鹏;基于话题的多文档文摘技术研究[D];国防科学技术大学;2011年
2 李延龙;基于查询网络的文档推荐策略研究[D];东北大学;2011年
3 周开朋;湿地保护的本体设计及其文档集的分级排序[D];大连理工大学;2006年
4 汤皖宁;基于文档团的Markov网络检索模型[D];江西师范大学;2013年
5 俞昊旻;文档部分重复检测研究[D];复旦大学;2012年
6 马玉玲;一种新的基于向量空间的XML文档相似性度量方法及搜索技术[D];山东大学;2007年
7 傅珊珊;基于聚类的XML文档集成管理方法研究[D];华侨大学;2008年
8 李芳;面向查询的多模式自动摘要研究[D];华中师范大学;2009年
9 陈征;基于XML数据库的数据挖掘研究[D];华中科技大学;2006年
10 李凯诺;Facet分类方法在知识管理中的应用[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026