收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向Web的XML检索关键技术研究

梁作鹏  
【摘要】: Web作为一个全球化信息空间,蕴含着海量的信息和知识。随着Web上资源的日趋丰富,各种基于Web的信息检索服务应运而生并得到了迅速发展。实践证明,Web搜索引擎是一个非常有用的信息检索工具。但对任一用户查询,搜索引擎都将返回成千上万个所谓的“匹配”文档,其中可能只有一小部分与用户的查询目标有关,而绝大部分毫无关系。如何组织和消化如此大量的信息,一直是困扰着最终用户的难题。如何帮助用户准确提出信息需求,并快速获得“满意”的查询结果,从而提高检索的效率,一直是研究的热点。尽管目前有大量的研究工作关注于Web数据检索,但现有的技术还远不能令人满意。 目前XML已经成为表示Web上多样性数据的事实标准,可以预见Web上的数据将主要以XML形式存在。XML规范的提出,使得信息的组织更加规范,使更准确的信息查询成为可能。随着XML获得越来越广泛的应用以及Web技术的不断发展,如何检索Web上海量的XML数据受到学术界越来越多的重视。在对目前国内外研究现状进行深入剖析的基础上,本文提出了一种面向Web的XML信息检索系统解决方案,对其中的检索模型、文档聚类、索引以及检索等关键技术进行了深入研究。 本文的主要工作可以概括为以下几个方面: 1.提出了检索模型X2VSM。针对Web上XML信息检索的特点,本文对目前信息检索系统中应用最广泛的信息检索模型-向量空间模型(VSM)进行了扩展,提出了适合XML的信息检索模型X2VSM。与VSM中的关键词term对应,加入相应的路径限定信息,提出了XTerm的概念;针对XML的元素嵌套的特点,提出逻辑文档的概念;提出逻辑XML文档和XML查询的统一向量表示方法;定义了XTerm的权重计算方法,并给出了文档和查询向量的相似度计算方法。X2VSM支持对XML文档进行内容和结构查询,支持任意嵌套层次的元素作为返回结果,还支持基于内容和结构相关性的查询结果排序,同时继承和保持了VSM简单易用等优点。 2.研究了XML文档的聚类。分析和比较了直接和间接的聚类策略,在此基础上提出一种基于路径信息的XML文档间接结构聚类算法PBSC。它没有直接计算文档的结构距离,而是采用间接聚类的策略。与其它基于编辑距离的算法相比,具有算法简单、效率较高以及聚类过程直观等优点。聚类结果可用于用户导航以及提高检索的效果。 3.研究了XML的结构索引问题。提出一种基于广义后缀树的XML结构索引PIGST。通过PIGST,把对XML文档的路径查询转换为后缀树中的字符串匹配,显著提高了查询处理效率;对传统的后缀树构建算法做了改进,使之能够用来创建由路径集合转换得到的字符串集合的广义后缀树;提出了间接包含路径查询,即查询式包含子孙-后代关系(含有“//”)的高效处理算法。PIGST的构造时间复杂度和空间复杂度是线性的,只与查询字符串的长度有关。 4.研究了查询处理算法。基于我们提出的XML信息检索模型X2VSM,提出了一种支持XML元素相关性计算的查询处理算法;对传统的倒排索引进行了扩展,提出了一种带Dewey编码的倒排索引;结合结构索引PIGST,提出了一种高效的内容索引和结构索引的联合索引结构,以支持对XML文档的检索及权重的动态计算;研究了路径的相似性问题,给出相应的计算方法,并将其集成于查询处理算法XRank,使XRank不仅支持内容相关排序,同时还支持结构(路径)相关性排序。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈洪军,陈新度,陈新,郑德涛;新一代基于知识的工程系统[J];中国机械工程;2002年17期
2 聂秀英;电子商务技术[J];电信技术;2000年08期
3 仲红,谢荣传;基于Web的数据仓库[J];安徽师范大学学报(自然科学版);2002年02期
4 刘建粉,张睿哲,张俊峰;XML与数据集成技术浅析[J];平顶山工学院学报;2003年02期
5 王颖纯;.NET框架和XML Web服务[J];天津理工学院学报;2003年02期
6 徐振航,刘莉芹;基于XML的WEB数据挖掘技术[J];计算机系统应用;2001年01期
7 严彩梅;Web智能信息检索体系结构的研究[J];计算机应用研究;2002年11期
8 刘建勋,张申生,胡涛;基于Web与XML的企业交互集成接口研究[J];高技术通讯;2002年05期
9 许华虎 ,焦政 ,高珏 ,毛哲文;基于XML的远程网络课程的研究[J];微型机与应用;2002年07期
10 闵华清,姚峰,李东;一种基于CORBA和XML的集成系统体系结构及其应用[J];计算机应用研究;2004年04期
11 殷家玉;;基于XML的Web数据挖掘[J];科技信息;2009年18期
12 焦桂芝,谭月辉,张静妙;基于CORBA组件技术的Web系统的开发与应用[J];河北科技大学学报;2004年01期
13 熊启军;;XML技术在数字图书馆建设中的应用[J];科技情报开发与经济;2007年28期
14 姜跃;;基于XML的WEB数据挖掘研究[J];硅谷;2011年09期
15 周泽华,金戈,黄涛;基于XML的分布式Web应用框架[J];计算机工程与应用;2001年18期
16 李秀,廖璘,刘文煌;基于Web的数据仓库系统的研究[J];计算机工程;2001年11期
17 冷建华;周明元;;基于XML的开放式网络教学平台的设计[J];时代教育(教育教学版);2008年10期
18 张智雄;XML:引导下一次Web革命的标识语言[J];现代图书情报技术;1999年S1期
19 张冬梅;WEB页标记语言XML超越HTML的技术变革[J];情报杂志;2001年10期
20 林春梅,何跃;基于XML动态交互Web实现的主要技术[J];微型电脑应用;2002年01期
中国重要会议论文全文数据库 前10条
1 胡华;宋荷庆;乐嘉锦;;基于XML的多Web数据库集成[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 王庆;萧建昌;吴红伟;和菊珍;周傲英;;Web服务环境下DTD控制的XML集成[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 唐敏;李昭原;;基于XML的Web数据库工具的设计与实现[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 王海燕;孟小峰;王珊;;基于XML的Web信息查询系统XWIS:结构与实现[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 李秀华;叶新铭;王玉龙;;WTML:基于XML的Web应用测试脚本语言[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 包小源;宋再生;唐世渭;杨冬青;王腾蛟;;SuffIndex——一种基于后缀树的XML索引结构[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 张硕;李建中;熊蜀光;王春宇;;一种基于XML的Web数据集成系统查询分解和优化策略[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
8 孙娜;;基于XML的WEB报表的设计与实现[A];中国航海学会通信导航专业委员会2006年学术年会论文集[C];2006年
9 程雯;黄晓;;基于XML的Web网络管理系统的研究与实现[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
10 郭涑炜;马路;谢飞;;基于J2EE/XML/Web Services技术的公文流转处理[A];Java技术及应用的进展——第七届中国Java技术及应用交流大会文集[C];2004年
中国博士学位论文全文数据库 前10条
1 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
2 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
3 阎红灿;面向Web的XML文档数据管理及分类检索技术研究[D];天津大学;2009年
4 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
5 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
6 雷向欣;XML索引和过滤查询若干关键技术研究[D];复旦大学;2005年
7 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
8 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
9 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
10 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
2 于洪雷;基于Web的工艺知识管理系统研究与开发[D];大连交通大学;2005年
3 吴金桥;XML及关联规则在Web日志挖掘中的应用研究[D];东华大学;2011年
4 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
5 勾成图;基于Web的远程销售管理系统研究与开发[D];西安理工大学;2005年
6 文峰;基于WEB的工作流管理系统中关键技术的研究[D];东北大学;2005年
7 陈波;XML文档数据查询技术研究[D];山东大学;2005年
8 丁明伟;基于OWL-S的语义化Web服务检索模型研究[D];重庆大学;2010年
9 陈晓璠;基于WEB的IP城域网综合网管系统的研究与应用[D];南昌大学;2005年
10 周剑敏;基于WEB的物流资源计划(LRP)系统模式研究[D];上海海事大学;2004年
中国重要报纸全文数据库 前10条
1 本报记者 汤铭;XML套件加速Web 2.0应用[N];计算机世界;2008年
2 赵晓涛;Web安全 服务为王[N];网络世界;2008年
3 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
4 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
5 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
6 闫冰;“推”出Web交付新天地[N];网络世界;2009年
7 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
8 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
9 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
10 ;Web2.0工具使用须谨慎[N];网络世界;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978