收藏本站
《东华大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

XML文档交互式信息检索技术研究

郭永明  
【摘要】:XML作为互联网上信息描述和数据交换事实上的标准,已经被业界广泛采用。随着Web上大量XML文档的涌现,如何对XML文档进行有效的检索成为了一个具有实际应用价值的重要研究课题。由于XML文档是一种半结构化的数据,具有明显的结构标记,可表达一定的语义信息。因此,可以利用XML文档所含有的结构信息,改进传统的基于关键词的信息检索,从而提供更加全面准确的检索结果。但是,由于XML文档结构的复杂性、异构性以及可扩展性,使得如何在信息检索的过程中有效利用XML文档的结构信息成为了XML信息检索所面临的首个挑战。 源于数据库的XML查询语言可以表达复杂的信息需求,但是要形成有效的结构化查询对于最终用户来说是非常困难的事情。因为用户可能并不熟悉文档结构,所以很难提出准确的“内容+结构”的结构化查询。基于关键词的XML信息检索依然面临着用户需求表达模糊的问题。XML信息检索实际上也是一个交互式的检索过程,相关反馈、检索结果聚类等交互式信息检索技术在XML信息检索中依然存在,而且有其独特的特点。例如,如何利用关键词检索的简单性迅速返回查询结果,然后根据用户的相关反馈等信息,系统自动形成或帮助用户形成内容+结构查询,以清晰地表达用户信息需求;如何根据XML文档的内容和结构特征聚类XML信息检索结果,以帮助用户迅速找到满足其需求的信息。因此,如何利用交互式信息检索技术改进XML信息检索的准确性是XML信息检索所面临的又一个挑战。 本文从XML信息检索所面临的这两个挑战入手展开研究,以XML文档交互式信息检索技术作为研究课题,主要研究两个问题:第一个问题是如何有效地结合结构信息和内容信息实现XML信息检索,主要包括XML节点编码、索引、检索模型和查询处理算法;第二个问题是如何进一步解决XML信息检索中同样存在着的用户信息需求表达模糊的问题,即研究相关反馈、检索结果聚类等交互式XML信息检索的一些关键技术。本文所做的主要工作和贡献包括以下几个部分: 1) XML节点编码模式及索引结构的研究。提出了一种新颖有效的节点编码模式,详细论述了该节点编码模式的定义和性质。在这个新的节点编码模式的基础上,构建了一种有效地集成结构索引和文本内容索引的混合索引结构HID。该混合索引结构HID能够有效地支持XML信息检索,包括关键词检索和结构化查询。对比实验结果表明本文所提出的新的混合索引结构HID在索引构建时间和空间消耗上具有较佳的性能。 2)XML信息检索模型及查询处理算法的研究。提出了一种用于XML信息检索的模糊结构向量空间模型。通过将文本内容特征词的概念扩展为结构化特征词,对向量空间模型进行扩展,使其能够包含结构信息的匹配和度量;同时将特征词在文档中出现的概念由一个精确的集合隶属关系,扩展为一个模糊集合隶属度的概念,以实现内容和结构信息的整体匹配,而且能够区别结构的匹配程度,建模不同程度的匹配为不同程度的重要性。该检索模型可统一建模关键词查询、标记关键词查询和路径关键词查询。最后给出了有效实现检索模型相应的查询处理算法,并实现了一个XML信息检索原型系统。对比实验结果表明本文所构建的XML信息检索原型系统具有较高的检索准确率和较快的查询响应时间。 3)XML信息检索相关反馈技术研究。提出了一种新的结合内容和结构的XML信息检索结构化相关反馈方法,能够有效地结合内容和结构特征等多种证据源,实现将初始的关键词查询扩展为内容+结构的结构化查询。该结构化相关反馈方法通过内容查询词扩展、查询词路径扩展和检索元素粒度相关反馈三种算法扩展初始的关键词查询。内容查询词的扩展和重新权重综合考虑了出现特征词的相关公共元素的数目、特征词在相关元素中的重要性、特征词邻接距离和结构语义等多种证据。实验结果表明本文所提出的结构化查询相关反馈方法可以有效地改进XML信息检索的准确率。 4) XML信息:检索结果聚类技术研究。针对XML文档的特点,提出了一种新的结合内容和结构特征的XML文档特征建模方法,能够有效地度量XML信息检索结果文档片断间的相似性。将XML信息检索结果聚类问题建模为k-中心聚类问题,通过改进解决k-中心聚类问题的贪心算法,提出了一种新的XML信息检索结果快速聚类算法。实验结果表明基于本文所提出的XML文档特征建模方法和新的XML信息检索结果快速聚类算法实现了较好的聚类质量和较快的聚类速度。
【学位授予单位】:东华大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.3

【参考文献】
中国博士学位论文全文数据库 前1条
1 韩忠明;基于XML的数据查询和信息检索集成化系统研究[D];东华大学;2006年
【共引文献】
中国期刊全文数据库 前7条
1 高明霞;姚文集;毛国君;;XML数据流中面向聚类的指数直方图[J];北京工业大学学报;2011年08期
2 张翀;唐九阳;肖卫东;汤大权;;基于簇核心的XML结构聚类方法[J];计算机研究与发展;2011年11期
3 李霞;李战怀;张利军;陈群;李宁;;MXDR:一种基于关键字的XML多文档分布式检索方法[J];计算机科学;2011年10期
4 姚文集;高明霞;毛国君;李广奎;;基于滑动窗口的XML数据流聚类算法[J];计算机工程;2010年13期
5 章小龙;衡星辰;;基于四层贝叶斯网络的XML文档信息检索模型[J];计算机应用;2009年10期
6 周军锋;孟小峰;;XML关键字查询处理研究[J];计算机学报;2012年12期
7 冯秀珍;陈旎;;电子资源元数据的自动识别研究[J];情报杂志;2010年04期
中国重要会议论文全文数据库 前2条
1 徐建民;陈富节;朱松;;基于量化同义词扩展的贝叶斯网络结构化检索模型[A];2007'仪表,自动化及先进集成技术大会论文集(二)[C];2007年
2 刘众奇;袁晓洁;张海威;杨娜;王敏辉;;阈值区间:一种基于XCLS和XCLSE的改进方案[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前3条
1 张翀;基于对等计算的分布式时空索引技术研究[D];国防科学技术大学;2011年
2 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
3 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
中国硕士学位论文全文数据库 前5条
1 李翠蓉;资源共享平台研究与开发[D];电子科技大学;2010年
2 张延鹏;Data Cube中基于维层次的OLAP算法研究[D];燕山大学;2010年
3 张春燕;XML数据交换技术在网上商城中的应用[D];湖南大学;2011年
4 高培;XML模式匹配算法的研究[D];西安电子科技大学;2012年
5 黄宁;一种基于硬件的XML解析方法的设计与实现[D];西安电子科技大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 陆伟;夏立新;;基于OKAPI的XML信息检索实现研究[J];中国图书馆学报;2006年04期
2 张小芳;;几种常见信息检索模型的分析与评价[J];情报杂志;2008年03期
3 黄绍龙;;基于语义网的信息检索[J];中国新技术新产品;2009年03期
4 艾丹祥;左晖;杨君;;网络信息检索中相关反馈技术的Java实现[J];电脑知识与技术;2011年16期
5 刘晓莉,彭波;基于概率模型的名人网页相关度评价[J];清华大学学报(自然科学版);2005年S1期
6 严华云;刘其平;肖良军;;信息检索中的相关反馈技术综述[J];计算机应用研究;2009年01期
7 陆伟;;元素级XML检索模型构建的关键问题与解决方案研究[J];中国图书馆学报;2007年06期
8 邓辉,刘畅;基于P2P技术的高效检索模型构建研究[J];现代图书情报技术;2004年11期
9 韩毅;;P2P网络信息检索的研究进展[J];现代图书情报技术;2007年07期
10 胡军;李志露;;一种基于Rough本体的语义搜索引擎模型[J];微计算机信息;2008年24期
中国重要会议论文全文数据库 前10条
1 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
2 周博;岑荣伟;刘奕群;张敏;马少平;;相关反馈任务中一种基于文档相似度的检索结果重排序方法[A];第五届全国信息检索学术会议论文集[C];2009年
3 徐建民;陈富节;朱松;;基于量化同义词扩展的贝叶斯网络结构化检索模型[A];2007'仪表,自动化及先进集成技术大会论文集(二)[C];2007年
4 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
5 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
6 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
7 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维吾尔文Web信息检索中基于改进VSM的文档表示及相似度研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
10 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
3 叶静;开辟信息检索的新天地[N];人民邮电;2001年
4 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
5 刘静一;个人档案信息检索[N];建筑报;2000年
6 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
7 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
8 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
9 刘立新;信息社会技术前瞻[N];学习时报;2006年
10 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;“海”中捞“珍”[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
2 叶正;基于网络挖掘与机器学习技术的相关反馈研究[D];大连理工大学;2011年
3 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年
4 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
5 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
6 邵虹;基于内容的医学图像检索关键技术研究[D];东北大学;2005年
7 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
8 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
9 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
10 温昌衍;客家方言特征词研究[D];暨南大学;2001年
中国硕士学位论文全文数据库 前10条
1 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
2 袁亮;一个基于WEB的信息组织与检索模型(WIORS)研究[D];武汉大学;2005年
3 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
4 袁晓丰;列表类自动问题问答系统的设计与实现[D];复旦大学;2008年
5 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
6 王启户;面向远程教育的搜索引擎系统设计与实现[D];西安电子科技大学;2008年
7 林永志;基于语义关系识别的二次检索[D];上海交通大学;2009年
8 胡升泽;个性化元搜索引擎若干关键技术研究[D];国防科学技术大学;2008年
9 刘玲;概念格在医学智能系统中的应用研究[D];兰州理工大学;2008年
10 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026