收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

一种基于后缀数组和倒排表的全文索引模型

郭鹏飞  
【摘要】:全文检索系统支持快速从海量文本数据中检索信息,具有重要的应用价值。全文索引模型是全文检索系统的核心,它决定了全文检索系统的功能与性能。全文索引模型设计为全文检索研究领域的一个重要课题。 全文索引模型性能评价指标包括索引查询时间、索引构造时间和索引存储空间;功能评价指标包括自索引、排序查询、短语查询和词边界未确定语言适应性。 倒排索引模型查询速度快、存储空间小,可以提供排序查询功能但是不能快速的支持短语查询,不能很好适应中文等词边界未确定语言。后缀树和后缀数组索引模型支持短语查询与自索引功能并且对词边界未确定语言有很好适应性但是不支持排序查询。ST-PL和CII索引模型结合后缀树索引和倒排索引的优点。 本文提出了SA-PL索引模型,该模型利用后缀数组可以支持短语查询、自索引和词边界未确定语言适应性且与后缀树相比存储空间小的特点,将后缀数组与倒排表相结合。该模型在提供与ST-PL和CII相同功能的前提下提高查询速度、减少存储空间。 根据SA-PL索引模型概念,设计了SA-PL-0索引模型。在SA-PL-0的基础上提出一种通过移除较短倒排表对索引空间进一步压缩的索引模型SA-PL-1。 论文实现了SA-PL-0、SA-PL-1、ST-PL和CⅡ索引模型。实验表明,SA-PL-0和SA-PL-1索引模型可以提供排序查询、短语查询和自索引功能并且对词边界未确定语言有很好适应性,其索引存储空间和索引查询时间综合性能显著优于ST-PL和CⅡ索引模型。SA-PL-1索引模型优于其他模型。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 舒敬谊;;一种可应用到TM的快速、易扩展检索系统的实现[J];冶金标准化与质量;2006年02期
2 史艳,李伟生;基于XML的搜索引擎技术的研究与设计[J];计算机工程与设计;2004年09期
3 刘凤晨;刘庆文;胡玥;黄河;;n-Gram/2L索引结构的存储与时间优化算法[J];计算机工程与应用;2008年05期
4 刘学文,陶晓鹏,于玉,胡运发;一种全新的全文索引模型——后继数组模型[J];软件学报;2002年01期
5 周英华;金培权;岳丽华;龚育昌;;基于位置的web搜索索引研究[J];中国科学技术大学学报;2007年02期
6 高天元;关继龙;马黎;;微机试题库管理系统[J];辽宁大学学报(自然科学版);1993年02期
7 曹军,肖建田,刘霞;借用外存构造后缀数组的优化算法[J];南华大学学报(自然科学版);2005年01期
8 包小源;唐世渭;杨冬青;;Interval~+——一种基于区间树的压缩XML索引结构1,222[J];计算机研究与发展;2006年07期
9 谭新良;蔡代纯;;基于XML文档的倒排索引研究[J];电脑知识与技术(学术交流);2007年05期
10 陈海永;刘良旭;;一种基于公路网络的高效更新索引结构[J];杭州电子科技大学学报;2008年03期
11 任家东;马瑞;;M*(k)-index构造算法的改进[J];计算机工程;2008年19期
12 潘隆禧;孙乐;;基于动态文档集的索引技术[J];计算机应用研究;2009年01期
13 邱永红;曾永年;邹滨;;KDT树:一种多维空间数据索引结构[J];计算机工程与应用;2009年08期
14 李萍萍;郝忠孝;;Hilbert曲线的2维时空索引[J];哈尔滨理工大学学报;2009年05期
15 谢枫平;;聚类分析中的高维数据降维方法研究[J];闽西职业技术学院学报;2009年04期
16 张彦满;余建桥;;路网中基于RQOP树的移动对象索引技术研究[J];西南师范大学学报(自然科学版);2011年02期
17 欧阳炜昊;李灿辉;;基于CMP的内存数据库索引性能优化[J];数字技术与应用;2011年05期
18 高雪霞;邝涛;;基于词典知识库的快速检索算法研究[J];德州学院学报;2011年04期
19 阳国贵;;一种支持多维空间数据管理的Quad-tree索引结构[J];计算机工程与科学;1989年03期
20 何宗要,田慧;SQL Server的全文索引及优化[J];平顶山学院学报;2005年05期
中国重要会议论文全文数据库 前10条
1 朱永泰;王晨;汪卫;施伯乐;;高效的图索引结构[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 曹奎;冯玉才;袁芳;;一种支持基于内容的图像检索的多维索引结构[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 许俭;吴天轶;王晨;汪卫;施伯乐;;聚集值近似查询的基于密度树索引结构(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 王斌;郭庆;李中博;杨晓春;;支持块编辑距离的索引结构[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
5 张龙;周傲英;郑仕辉;梁宇奇;;一种可行的层次型XML仓库索引结构[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 李东;张静玲;王亮明;;一种XML集成索引结构[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 汪卫;王勇;王宇君;施伯乐;;一维动态区间索引结构[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
8 郭瑞杰;程学旗;许洪波;张刚;王斌;;FirteX—高性能全文索引和检索平台[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 丁道峰;吴红伟;王晓玲;周傲英;;D(k,l)-索引:一种自适应的XML数据索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 张恩德;王国仁;宁博;王斌;;DVBB:基于Dewey向量的B+树索引结构连接算法(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 王兴中;铁路调度指挥系统中数据存储体系及索引结构的研究[D];中国铁道科学研究院;2011年
2 刘勇;频繁模式挖掘相关技术研究[D];复旦大学;2007年
3 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
4 王金宝;云计算系统中索引与查询处理技术研究[D];哈尔滨工业大学;2013年
5 董道国;高维数据索引结构研究[D];复旦大学;2005年
6 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
7 闫莺;多数据类型的数据流查询处理及优化[D];复旦大学;2008年
8 阳国贵;对象关系数据库中若干关键技术的研究[D];中国人民解放军国防科学技术大学;2000年
9 雷向欣;XML索引和过滤查询若干关键技术研究[D];复旦大学;2005年
10 刘良旭;移动对象数据库中时空数据管理若干关键技术研究[D];东华大学;2008年
中国硕士学位论文全文数据库 前10条
1 郭鹏飞;一种基于后缀数组和倒排表的全文索引模型[D];北京交通大学;2014年
2 景珂;网络数学搜索中的数学查询语言与索引的研究[D];兰州大学;2009年
3 孙冬璞;基于时空数据库的轨迹最近邻索引的研究[D];哈尔滨理工大学;2007年
4 邱伯仁;生物序列的索引研究及其应用[D];复旦大学;2009年
5 陈波;XML文档数据查询技术研究[D];山东大学;2005年
6 林恩爱;基于聚类的分层索引结构在图像检索中的应用研究[D];北京交通大学;2006年
7 钟细亚;时空数据库索引技术研究[D];华中科技大学;2006年
8 朱清华;支持XML数据更新的编码方案与索引技术研究[D];湖南师范大学;2009年
9 燕昆;分布式搜索引擎索引安全及缓存策略研究[D];华中科技大学;2011年
10 黄影;生物序列索引结构构造算法研究[D];西安电子科技大学;2009年
中国重要报纸全文数据库 前10条
1 沈建苗 编译;实现多重标准搜索[N];计算机世界;2006年
2 宁夏 刘君;SQL Server中全文检索的使用[N];电脑报;2001年
3 宁夏数据通信局 刘君;SQL Server 2000中全文检索的使用[N];计算机世界;2002年
4 张承东;IBM: 企业级搜索高挂“免费牌”[N];网络世界;2007年
5 本报记者 刘学习;归档降低存储硬件需求[N];计算机世界;2008年
6 郑依华;搜索引擎也开源[N];计算机世界;2006年
7 方格;第四代GIS崭露端倪[N];中国计算机报;2003年
8 杨宝昌;让MySQL支持中文全文检索[N];计算机世界;2006年
9 ;智能管理 永远可用[N];网络世界;2004年
10 本报记者 成静;硬盘搜索:从海量资料里萃精华[N];中国经济导报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978