收藏本站
收藏 | 论文排版

无结构和半结构信息检索相关技术研究

王鑫印  
【摘要】: 信息检索(Information Retrieval,IR)相关技术是当前最为活跃的研究领域之一,它指的是对信息项进行表示、组织、存贮和查询。借助于计算机和网络等信息技术,如今人们已经能够快速有效的检索到所需的大量信息,但是,随着信息时代的发展,信息总量进一步增长,如何按照给定的性能指标在新的信息总量上更准确的找到所需要的信息,这是摆在研究者面前的一个问题。 现代信息检索均以一定的模型或者索引机制作为基础。本文在信息检索模型一互关联后继树一的基础上,提出了若干算法模型以期达到更好的检索性能,并使之适用于一些新的应用领域。 本文前面部分总结了互关联后继树本身的模型和特点。为了进一步提高模型的检索速度,本文提出在二元后继树的基础上提高排序程度,从而得到了双排序后继树(Double Order Successive Tree,DOST)。然后本文进一步讨论了该模型与pat数组结构的关系,从而进一步奠定了互关联后继树体系在信息检索方面的理论基础。作为文本检索和XML检索的共同的基础,二元后继树模型对于支持无结构和半结构化数据检索意义重大。因此本文对围绕该模型的一系列问题进行了进一步研究,本文讨论了分库合库算法,模型增量修改,压缩编码等算法问题及相应措施。 近年来,以XML为代表的半结构化数据相关应用得到迅速发展。如何利用半结构化数据中现有的结构信息优化检索以及如何进行半结构化数据中的全文信息进行综合查询,这是信息检索领域面临的新问题。本文讨论了将二元后继树引入XML索引领域得到的半结构化信息检索模型—Xistree—的基本性质和相关算法。文中在实现Xistree模型的基础上,首先与XISS进行了对比实验,然后与有名的Native XML DB实用系统Timber和XIndice进行了对比实验。结果表明,本系统在大数据集下,对于已知路径模式的简单查询和分支算法的性能都取得了非常好的成果。 将文本等无结构化数据的检索转化为半结构化检索问题从而最终实现基于语义的检索是当前研究者们努力的一个方向,因此基于概念语义的半结构化信息检索受到人们的普遍关注的信息检索新领域。如何更准确的度量用户需求和数据之间的关系,更高效的返回结果从而提高用户的搜索体验,将成国未来的研究发展进一步需要解决的问题。在本文中,主要针对半结构化数据中的概念检索问题,提出了概念语义模型构建的基本思想以及概念语义相关度匹配算法思路以及如何利用XML的结构信息进行SLCA查询。与以往的SLCA算法相比,本文所提出的算法在时间复杂度上有了较大提高。 概念相关性是信息检索的重要内容,为了自动发现概念相关性,需要借助概念相关频繁项挖掘算法,因此本文还提出了在一种模式数据上挖掘的算法—自适应的频繁项挖掘算法。本文首先提出了一种基于FP-tree的简单深度优先搜索算法NDFS,并简单分析了其在不同数据集上的特性;随后本文进一步将NDFS和经典的FP-growth算法进行结合,提出了一种在挖掘过程中根据局部空间特征动态采用不同策略的自适应算法(Self-Adaptive FP-growth,SAFP)。 本文对我们所开发的XML原型系统和二元后继树模型在中国电信集团黄页信息有限公司项目《黄页信息检索》中的应用进行了简单的介绍,并试图阐述如何将前面几章讨论的文本索引技术和基于概念的语义索引方法结合起来,形成一个综合了结构化、半结构化和无结构化数据的信息检索系统。最后本文对到目前为止所做的工作进行了回顾,并提出了对未来进一步的工作的展望。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 于兴艳;孔真;;浅析基于web的跨语言信息检索之现状[J];信息通信;2011年04期
2 吴思萍;;高等院校图书馆的个性化服务研究[J];华章;2011年13期
3 王真;刘海燕;;搜索引擎的比较及在网络信息检索中的作用[J];黑龙江科技信息;2011年18期
4 刘姝;;知识可视化在信息检索中的实际应用[J];图书馆杂志;2011年06期
5 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
6 李琦;;本体用于信息检索的研究浅析[J];情报探索;2011年07期
7 顾国庆;周艳;黄江娓;;搜索引擎——图书馆的新工具[J];景德镇高专学报;2011年02期
8 杨永健;;浅议图书馆新型OPAC系统发展趋势——以汇文OPAC系统为例[J];四川图书馆学报;2011年03期
9 俞平;;信息检索中文献漏检误检因素分析[J];情报科学;2011年08期
10 李亚楠;;高校图书馆与大学生素质教育的关系研究[J];现代阅读(教育版);2011年15期
11 黄名选;朱家安;冯平;;基于正负关联规则融合的信息检索模型[J];情报理论与实践;2011年07期
12 吴谋硕;;基于用户信息的信息检索效果提高策略[J];电脑知识与技术;2011年21期
13 刘劲松;张彬;柴文磊;魏建行;刘振鹏;;校园网园区搜索引擎的设计与实现[J];河北大学学报(自然科学版);2011年04期
14 吴庆涛;芮跃峰;张卫星;;个性化搜索引擎中的用户兴趣模型分析与研究[J];现代计算机;2011年08期
15 艾丹祥;左晖;杨君;;网络信息检索中相关反馈技术的Java实现[J];电脑知识与技术;2011年16期
16 刘庆庆;史萍;邵美德;任培明;赵志军;;数字美术馆系统的设计与实现[J];电视技术;2011年09期
17 徐建民;陈振亚;;一种用于结构化文档检索的贝叶斯网络[J];计算机工程;2011年13期
18 谢根甲;王昊;;全国民办高校综合检索数据库建设与构想[J];兰台世界;2011年15期
19 田辛玲;;独立学院图书馆读者信息教育实践研究——以北京师范大学珠海分校图书馆为例[J];现代情报;2011年06期
20 孙丽娟;川蓉;;用文献计量方法研究图书出版现象——以文献信息类图书为例[J];现代情报;2011年07期
中国重要会议论文全文数据库 前10条
1 廖光忠;黄泽鑫;;基于HowNet语义算法的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
2 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
3 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
4 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
5 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
7 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
8 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
10 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
中国博士学位论文全文数据库 前10条
1 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
2 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
4 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
5 董道国;高维数据索引结构研究[D];复旦大学;2005年
6 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
7 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
8 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
9 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
10 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 邱春艳;基于粗糙集理论的智能信息检索方法的研究[D];东北师范大学;2005年
2 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
3 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
4 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
5 张斌;基于主题的文本检索[D];北京邮电大学;2011年
6 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
7 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
8 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
9 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
10 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
5 刘静一;个人档案信息检索[N];建筑报;2000年
6 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
7 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
8 刘立新;信息社会技术前瞻[N];学习时报;2006年
9 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
10 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978