收藏本站
《东华大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

XML文档交互式信息检索技术研究

郭永明  
【摘要】:XML作为互联网上信息描述和数据交换事实上的标准,已经被业界广泛采用。随着Web上大量XML文档的涌现,如何对XML文档进行有效的检索成为了一个具有实际应用价值的重要研究课题。由于XML文档是一种半结构化的数据,具有明显的结构标记,可表达一定的语义信息。因此,可以利用XML文档所含有的结构信息,改进传统的基于关键词的信息检索,从而提供更加全面准确的检索结果。但是,由于XML文档结构的复杂性、异构性以及可扩展性,使得如何在信息检索的过程中有效利用XML文档的结构信息成为了XML信息检索所面临的首个挑战。 源于数据库的XML查询语言可以表达复杂的信息需求,但是要形成有效的结构化查询对于最终用户来说是非常困难的事情。因为用户可能并不熟悉文档结构,所以很难提出准确的“内容+结构”的结构化查询。基于关键词的XML信息检索依然面临着用户需求表达模糊的问题。XML信息检索实际上也是一个交互式的检索过程,相关反馈、检索结果聚类等交互式信息检索技术在XML信息检索中依然存在,而且有其独特的特点。例如,如何利用关键词检索的简单性迅速返回查询结果,然后根据用户的相关反馈等信息,系统自动形成或帮助用户形成内容+结构查询,以清晰地表达用户信息需求;如何根据XML文档的内容和结构特征聚类XML信息检索结果,以帮助用户迅速找到满足其需求的信息。因此,如何利用交互式信息检索技术改进XML信息检索的准确性是XML信息检索所面临的又一个挑战。 本文从XML信息检索所面临的这两个挑战入手展开研究,以XML文档交互式信息检索技术作为研究课题,主要研究两个问题:第一个问题是如何有效地结合结构信息和内容信息实现XML信息检索,主要包括XML节点编码、索引、检索模型和查询处理算法;第二个问题是如何进一步解决XML信息检索中同样存在着的用户信息需求表达模糊的问题,即研究相关反馈、检索结果聚类等交互式XML信息检索的一些关键技术。本文所做的主要工作和贡献包括以下几个部分: 1) XML节点编码模式及索引结构的研究。提出了一种新颖有效的节点编码模式,详细论述了该节点编码模式的定义和性质。在这个新的节点编码模式的基础上,构建了一种有效地集成结构索引和文本内容索引的混合索引结构HID。该混合索引结构HID能够有效地支持XML信息检索,包括关键词检索和结构化查询。对比实验结果表明本文所提出的新的混合索引结构HID在索引构建时间和空间消耗上具有较佳的性能。 2)XML信息检索模型及查询处理算法的研究。提出了一种用于XML信息检索的模糊结构向量空间模型。通过将文本内容特征词的概念扩展为结构化特征词,对向量空间模型进行扩展,使其能够包含结构信息的匹配和度量;同时将特征词在文档中出现的概念由一个精确的集合隶属关系,扩展为一个模糊集合隶属度的概念,以实现内容和结构信息的整体匹配,而且能够区别结构的匹配程度,建模不同程度的匹配为不同程度的重要性。该检索模型可统一建模关键词查询、标记关键词查询和路径关键词查询。最后给出了有效实现检索模型相应的查询处理算法,并实现了一个XML信息检索原型系统。对比实验结果表明本文所构建的XML信息检索原型系统具有较高的检索准确率和较快的查询响应时间。 3)XML信息检索相关反馈技术研究。提出了一种新的结合内容和结构的XML信息检索结构化相关反馈方法,能够有效地结合内容和结构特征等多种证据源,实现将初始的关键词查询扩展为内容+结构的结构化查询。该结构化相关反馈方法通过内容查询词扩展、查询词路径扩展和检索元素粒度相关反馈三种算法扩展初始的关键词查询。内容查询词的扩展和重新权重综合考虑了出现特征词的相关公共元素的数目、特征词在相关元素中的重要性、特征词邻接距离和结构语义等多种证据。实验结果表明本文所提出的结构化查询相关反馈方法可以有效地改进XML信息检索的准确率。 4) XML信息:检索结果聚类技术研究。针对XML文档的特点,提出了一种新的结合内容和结构特征的XML文档特征建模方法,能够有效地度量XML信息检索结果文档片断间的相似性。将XML信息检索结果聚类问题建模为k-中心聚类问题,通过改进解决k-中心聚类问题的贪心算法,提出了一种新的XML信息检索结果快速聚类算法。实验结果表明基于本文所提出的XML文档特征建模方法和新的XML信息检索结果快速聚类算法实现了较好的聚类质量和较快的聚类速度。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 于志敏;张文德;;基于自然语言处理的信息检索[J];山东科技大学学报(自然科学版);2006年01期
2 韩化雪;康鲲鹏;;基于WEB搜索引擎的发展[J];福建电脑;2006年09期
3 周文军;;网络信息检索的发展与研究[J];科技情报开发与经济;2006年15期
4 曾忠平;;数字图书馆中基于内容的多媒体检索技术[J];中国科技信息;2009年03期
5 杨治秋;;信息检索技术在教学中的应用与研究[J];科技创新导报;2009年11期
6 赵鹏;一种基于压缩的全文本数据库倒排索引方法[J];黑龙江大学自然科学学报;2005年03期
7 张桂玲;阎敏;;数据库及其检索技术的发展趋势[J];现代情报;2006年02期
8 丁明;祝博;李龙森;;网络信息检索发展趋势展望[J];科技资讯;2006年04期
9 焦丽;;我国信息检索研究综述[J];情报探索;2007年06期
10 王宇佳;;网络信息检索发展趋势摭谈[J];现代情报;2008年07期
11 李如平;;搜索引擎技术及应用研究[J];西昌学院学报(自然科学版);2010年03期
12 赵静;;网络信息检索可视化研究[J];数字技术与应用;2010年08期
13 徐颖;;科技图书文献的信息检索方法概述[J];科技创新导报;2010年34期
14 方正;;信息检索中关键技术的研究[J];大庆师范学院学报;2011年03期
15 刘志舜;;关于Web科技信息检索技术的几点思考[J];黑龙江科技信息;2011年15期
16 刘玲玲;现代图书馆服务研究[J];河南图书馆学刊;2002年03期
17 杜治波;明均仁;;现代信息存取技术发展探析[J];今日科苑;2008年14期
18 曾曦梅;施国君;;基于神经网络的动态反馈智能检索技术[J];科技创新导报;2008年27期
19 张明宝;米传民;;一种基于UIMA的企业级信息检索系统研究[J];情报杂志;2009年04期
20 于林海;;图书馆信息检索网格化应用现状分析[J];图书馆学研究;2009年04期
中国重要会议论文全文数据库 前10条
1 林水灿;;现代技术与传统方法交融下的信息检索技术[A];福建省社会科学信息工作年会网络时代文献信息的传统与现代学术研讨会论文集(1)[C];2003年
2 夏定元;;图书情报检索技术的走向[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
3 施水才;肖诗斌;都云程;王洪俊;;TRS中文信息检索技术的发展(摘要)[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 沈勇;;基于隐写术的信息检索方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 魏元珍;杨沂凤;;信息检索教学课件的开发与体会[A];网络信息资源的搜集与应用——全国高校社科信息资料研究会第十次年会论文集[C];2004年
6 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 蔡勋梁;赵军;;信息检索中基于MLS的语言模型准确性分析[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 韩咏;孔蕾蕾;齐浩亮;;科技论文原创性检查系统的研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 黄名选;严小卫;张师超;;基于完全加权关联规则挖掘的信息检索模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 韩咏;孙育华;张帆;齐浩亮;;科技论文原创性检查系统的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 张雪峰;信息检索技术的新视角[N];中华读书报;2005年
2 易宝北信公司 施水才;信息检索技术应用新方向:普及检索和知识检索[N];中国企业报;2001年
3 骆卫华 刘群 张俊林;搜索引擎:性能提高遇到瓶颈[N];计算机世界;2006年
4 黄宇;共享资源 助力创新[N];北海日报;2010年
5 记者 何馨;数字化为古籍整理带来划时代的变革[N];中国社会科学院院报;2008年
6 本报记者 孟飞鸿;百度 震后成都照“摆”不惧[N];成都日报;2008年
7 ;蓦然回首 李彦宏在阑珊处[N];亚太经济时报;2005年
8 筱瑶;信息整合平台技术呼之欲出[N];中国信息报;2003年
9 ;TRS欲做企业搜索领域的Google[N];计算机世界;2005年
10 欣雯;网络江湖 创业点将[N];市场报;2006年
中国博士学位论文全文数据库 前10条
1 于士涛;基于问答网络论坛知识体系的自动问答系统研究[D];南开大学;2009年
2 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
3 张亮;基于机器学习的信息过滤和信息检索的模型和算法研究[D];天津大学;2007年
4 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
5 凌波;基于对等计算的信息检索技术[D];复旦大学;2004年
6 高明霞;问答式OWL知识检索技术[D];北京工业大学;2008年
7 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
8 郑贵滨;基于内容的音频信息检索技术研究[D];哈尔滨工业大学;2006年
9 梅翔;语义检索中若干关键问题的研究[D];北京邮电大学;2007年
10 何新;基于内容的音频信息分类检索技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 徐莹;信息检索中的查询优化技术研究[D];合肥工业大学;2008年
2 王泽胤;全文信息检索的快速索引文件结构及系统的设计与实现[D];吉林大学;2009年
3 司建军;油田信息网信息检索技术研究与应用[D];哈尔滨工程大学;2002年
4 高继峰;基于语义Web的智能信息检索系统研究[D];郑州大学;2006年
5 王慧慧;基于自然语言处理的问答系统研究[D];电子科技大学;2006年
6 操卫平;基于结构化向量空间模型的中文信息检索系统研究与实现[D];北京工业大学;2008年
7 韩亮;基于本体的消防信息检索系统的研究[D];大连海事大学;2008年
8 刘金亮;汽车行业垂直搜索系统原型的设计与关键模块的实现[D];北京邮电大学;2008年
9 吕翔;基于Ontology的政府信息资源检索系统分析与设计[D];南京航空航天大学;2008年
10 陈丽珍;维文网络中不良文本信息检索、监控系统的研究[D];新疆大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978