收藏本站
《华中科技大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于倒排索引的全文检索技术研究

刘兴宇  
【摘要】:倒排索引是提高全文检索效率的重要技术,而倒排索引的空间效率、动态性能、创建效率和检索效率一直是倒排索引面临的关键问题,它们之间既紧密联系又相互制约。课题正是围绕倒排索引的压缩、增量更新、填充及检索效率展开,其目的是提高四者的综合性能。 压缩倒排索引有助于提高查询的吞吐量,因为读和解压已压缩的倒排索引往往比读一个未压缩的倒排索引要快。前人的研究关注得更多的是倒排索引的压缩率,而往往忽略了动态性。为了兼顾动态性,需要研究既能提高压缩率又能方便索引动态更新的压缩方法。在分析倒排列表的动态特点的基础上,得出构成倒排列表的文档编号、单词在文档中的出现频率及相应位置三序列的动态性是不同的,并由此提出一种混合编码的方法。试验表明,混合编码在压缩率方面优于其他支持动态更新的编码。 为了支持倒排索引增量更新,从改进倒排索引的数据结构入手,提出了基于可扩展散列表的倒排索引存储策略。这一策略使倒排索引具有良好的可扩展性,不但减少了动态调整时的移动开销,而且调整后的索引对倒排索引的查询速度影响较小。它既支持文档的插入、删除操作,又具有较高的查询效率和空间利用率。 词库的查找速度是影响倒排索引的填充及检索效率的因素之一。采用有序保留最小完全散列函数实现词库的查找,不但能加快查找速度,而且无需预先对单词排序。试验证明,它能获得比折半查找快近一倍的速度。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP311.13

手机知网App
【引证文献】
中国期刊全文数据库 前8条
1 张克君;任鹏;钱榕;居荣斌;姜琛;张国亮;;一种基于聚类技术的全文检索与推介系统的构建[J];计算机科学;2015年S1期
2 郭永利;卢颖颖;;基于Lucene对文件全文检索的研究与应用[J];微型电脑应用;2014年01期
3 蒋春茂;宁芊;傅贺平;;信息检索技术在文档管理中的应用[J];微型机与应用;2013年18期
4 李文;洪亲;滕忠坚;石兆英;胡小丹;刘海博;;基于n-gram的字符串分割技术的算法实现[J];计算机与现代化;2010年09期
5 吴炜;苏永红;李瑞轩;卢正鼎;;基于DHT的分布式索引技术研究与实现[J];计算机科学;2010年02期
6 刘鹏;康建初;诸彤宇;;导航终端中的兴趣点数据压缩检索技术[J];计算机工程;2009年14期
7 赵远东;陈康;陈建华;;基于全文检索的Segmenter分词算法改进[J];电脑知识与技术;2009年01期
8 聂文琪;;面向中文的全文索引模型的比较[J];武汉交通职业学院学报;2007年03期
中国硕士学位论文全文数据库 前10条
1 胡欣;语义检索技术在勘探生产门户中的应用研究[D];西安石油大学;2018年
2 竺润龙;博客媒体分析系统设计与实现[D];华中师范大学;2018年
3 夏辉;SaaS平台数据安全机制的设计与实现[D];北京邮电大学;2018年
4 杨阳;基于分块式链表索引算法的分布式大数据全文检索的研究[D];天津理工大学;2018年
5 宋双志;生物领域电商网站搜索引擎的设计与实现[D];湖南科技大学;2017年
6 郁浩春;基于MapReduce的图关键词查询技术的研究[D];南京邮电大学;2017年
7 李冬;面向实时交通流数据的HBase辅助索引技术研究和实现[D];北方工业大学;2017年
8 庞博;基于舆情的进口产品质量风险监控系统的设计与实现[D];浙江大学;2017年
9 李晓伟;云环境下的舆情监测关键技术研究[D];西南科技大学;2017年
10 李成铭;基于文本特征提取技术的在线人职匹配研究及应用[D];电子科技大学;2017年
【参考文献】
中国期刊全文数据库 前1条
1 杨成明;情报检索中的双层B+树算法探讨[J];情报学报;1997年S1期
【同被引文献】
中国期刊全文数据库 前10条
1 吴洁明;冀单单;韩云辉;;基于Web的DCI垂直搜索引擎的研究与设计[J];计算机工程与设计;2013年04期
2 闻玉彪;贾时银;邓世昆;李远方;;一种改进的最大匹配中文分词算法[J];计算机技术与发展;2011年10期
3 熊回香;陈姗;许颖颖;;基于Web 3.0的个性化信息聚合技术研究[J];情报理论与实践;2011年08期
4 吴夙慧;成颖;郑彦宁;潘云涛;;K-means算法研究综述[J];现代图书情报技术;2011年05期
5 谷照升;;RIA技术解析[J];长春工程学院学报(自然科学版);2010年01期
6 冯冰洁;杨天奇;;后缀树聚类算法在元搜索引擎中的应用[J];微计算机信息;2010年03期
7 王斌;;从信息检索到搜索引擎[J];术语标准化与信息技术;2009年04期
8 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期
9 郑廷;郑诚;;基于Lucene的语义检索系统[J];计算机工程;2008年16期
10 刘件;魏程;;中文分词算法研究[J];微计算机应用;2008年08期
中国硕士学位论文全文数据库 前10条
1 肖运文;基于ElasticSearch的教育资源推荐系统设计与实现[D];北京工业大学;2016年
2 陆婷;基于HBase的交通流数据实时存储系统的设计与实现[D];北方工业大学;2016年
3 曾亚飞;基于Elasticsearch的分布式智能搜索引擎的研究与实现[D];重庆大学;2016年
4 曲哲凝;Lucene中文分词在电子档案全文检索中的应用研究[D];大连海事大学;2015年
5 赵扬;基于信息量的语义相似度计算方法研究[D];东北师范大学;2015年
6 金镇晟;基于改进的TF-IDF算法的中文微博话题检测与研究[D];北京理工大学;2015年
7 韩逸;基于增量式爬虫的搜索引擎系统的设计与实现[D];东北大学;2015年
8 王媛冬;基于SolrCloud平台的分布式全文检索系统的设计与实现[D];山东师范大学;2015年
9 田中生;基于影响力的社会网络关键用户识别方法研究[D];吉林大学;2015年
10 肖雷;面向论坛的文本特征提取及分类技术研究[D];河北大学;2015年
【二级引证文献】
中国期刊全文数据库 前10条
1 崔诗程;李千目;戈峰;;基于Lucene的全文检索架构设计[J];南京理工大学学报;2015年06期
2 王素红;宁慧;王明星;徐丽;;基于Hadoop的抄袭检测的源检索方法研究[J];应用科技;2015年06期
3 刘全飞;周相兵;;基于lucene的站群全文检索系统设计与实现[J];电脑与信息技术;2015年01期
4 成江荣;;模糊查找与模糊分组在批量数据合并中的应用[J];北京印刷学院学报;2014年06期
5 吴斌;徐哲;霍洪波;;基于Lucene搜索引擎的医技报告检索模块设计与实现[J];中国医疗设备;2014年10期
6 应申;陈桂秋;曹晓航;张永军;;多比例尺电子地图中基于线性道路的POI抽稀[J];测绘工程;2014年07期
7 颜端武;李兰彬;曲美娟;;基于N-gram复合分词的领域概念自动获取方法研究[J];情报理论与实践;2014年02期
8 李德文;贾士博;谭彰;姚罕琦;;一种分布式实时数据系统中的基于动态索引策略的存取定位机制[J];工业控制计算机;2013年11期
9 任晓霞;周萌;殷铭;曾青石;;一种嵌入式导航终端的兴趣点数据处理方法[J];计算机应用与软件;2013年09期
10 石小梅;刘克剑;郭彩虹;严莲;;一种基于DGKAD模型的FTP搜索引擎索引算法[J];西华大学学报(自然科学版);2013年03期
中国硕士学位论文全文数据库 前1条
1 郭洁;面向IT行业个性化简历推荐算法研究[D];西北大学;2018年
【二级参考文献】
中国期刊全文数据库 前2条
1 马光华;情报信息的现代处理方法再研究[J];西北大学学报(哲学社会科学版);1996年01期
2 尹熙根,吴国顺;强化信息加工力度 深化信息服务[J];图书馆建设;1995年04期
【相似文献】
中国期刊全文数据库 前10条
1 常璐;SQL Server 2000全文检索服务的实现与使用[J];江苏图书馆学报;2002年06期
2 张广佰;文海捞针,你有招吗?[J];中国计算机用户;1999年30期
3 毛卓寰;全文检索软件及发展[J];情报杂志;1999年05期
4 刘春科;;一种无标引实现汉字全文索引与全文检索的新方法[J];情报学报;1991年02期
5 张俊三;瞿有利;;信息检索中相关实体发现综述[J];计算机工程与设计;2011年12期
6 赵捧未,王欣,吕建平;一个用于全文信息系统的检索算法[J];情报理论与实践;1993年05期
7 赵新民;全文检索在数字图书馆中的发展与应用[J];高校图书馆工作;2001年01期
8 常征;;SQL Server 2000全文检索的实现[J];科技信息(科学教研);2007年16期
9 ;全文检索入佳境[J];微电脑世界;2000年37期
10 刘君;SQL Server 2000中全文检索的使用[J];中国数据通信;2001年12期
中国重要会议论文全文数据库 前10条
1 ;前言[A];第五届全国信息检索学术会议论文集[C];2009年
2 樊怡菁;;《信息检索与利用》精品课程建设与探索[A];图书馆联盟建设与发展[C];2012年
3 沙迎杰;柳炜;;浅议信息检索教学的课程设计[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
4 ;前言[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 杨俊峰;宋剑;李丹宁;李丹;李静;;企业信息检索的可信性评估研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
6 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
8 孙金立;梁蜀忠;李希明;董明强;李路路;;生物信息检索在医学中的应用[A];中国营养学会老年营养分会第七次全国营养学术交流会“营养与成功老龄化”暨国家级继续教育项目“神经系统疾病医学营养治疗”资料汇编[C];2010年
9 ;第一届全国信息检索与内容安全学术会议组织情况[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 ;哈尔滨工业大学信息检索研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国重要报纸全文数据库 前10条
1 潘亚南;中国科学院全文档案信息检索应用取得好效果[N];中国档案报;2004年
2 宁夏 刘君;SQL Server中全文检索的使用[N];电脑报;2001年
3 杭州电子科技大学中国评价科学研究院 汤建民;大学校名取名需方便信息检索[N];中国社会科学报;2017年
4 记者 王慧 实习生 阿柔娜;首府专利信息检索对外开放日活动首次开启[N];呼和浩特日报(汉);2010年
5 宁夏数据通信局 刘君;SQL Server 2000中全文检索的使用[N];计算机世界;2002年
6 梅竹;清华摘取国际信息检索比赛两项桂冠[N];计算机世界;2002年
7 记者 徐可;因特网大规模信息检索取得国际公认成绩[N];光明日报;2003年
8 朱华顺 东莞理工学院图书馆馆员;高校“信息检索”课:培养读者以最少时间和精力获取信息[N];中国图书商报;2013年
9 夏飞平 蒋光君;深圳局:信息检索实现“一点通”[N];中国国门时报;2009年
10 子华;从全文检索到信息整合[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 陈琴;基于上下文的信息检索若干关键技术研究[D];华东师范大学;2018年
2 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
3 韩忠明;基于XML的数据查询和信息检索集成化系统研究[D];东华大学;2006年
4 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
5 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
6 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
7 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
8 杨瑜;基于专长视角的学术信息检索认知能力研究[D];福建师范大学;2016年
9 温延龙;XML信息检索关键技术研究[D];南开大学;2012年
10 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年
2 屈磊;动态全文索引系统关键技术研究[D];哈尔滨工业大学;2009年
3 周崇荣;基于Linux多功能信息检索代理的设计与实现[D];西安电子科技大学;2011年
4 郑志学;大学生学术信息检索行为实验研究[D];郑州大学;2018年
5 杨宇;面向网页文本的地理信息检索关键技术研究[D];中国矿业大学;2018年
6 彭钰莹;基于排序学习的生物医学领域信息检索[D];大连理工大学;2018年
7 雷武;信息检索系统中排序学习算法的研究[D];武汉邮电科学研究院;2017年
8 聂佳;一种融合代码依赖关系的基于信息检索的需求更新方法[D];南京大学;2016年
9 马天牧;面向科学研究领域的信息制图法研究与实现[D];北京邮电大学;2018年
10 易磊;私有信息检索及其应用的研究[D];安徽大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026