收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于分布式计算的全文检索关键技术研究

郭建荣  
【摘要】:网络信息化的快速普及,尤其是大数据时代的到来,使得互联网上各种异构的非结构化数据开始出现爆炸式的增长。搜索引擎技术为人们从海量的数据中快速并且有效地检索出有用的信息提供了良好的解决方案。全文检索是搜索引擎中的主要技术,它主要包含两个步骤—索引建立和索引查询。在云存储平台与分布式计算技术的快速推动下,分布式全文检索在解决集中式检索中的各种问题的同时,它开始成为现代信息检索中的一项重要技术。 本文首先介绍了分布式全文检索的研究背景和发展现状,之后分别对分布式全文索引的建立、分布式全文索引的划分组织、分布式索引查询等过程中涉及到的关键技术进行了阐述和分析。在这基础之上,本文针对分布式全文检索中的几个关键问题进行了研究,提出了一些解决方法,并且通过相关的实验来验证方法的有效性。本文的研究内容主要从以下几个方面展开: 一、首先分析了单机集中式索引构建方式的不足,提出了一种应用分布式计算框架MapReduce进行并行索引构建的方法,并且在全文检索框架Lucene上实现了分布式索引的建立。最终通过4台机器组成的Hadoop集群来将索引的建立效率提高了一倍,验证了上述方法的有效性。 二、分布式索引的划分组织方式决定了整个分布式系统的负载均衡。本文首先分析并且对比了目前两种主流的索引分割组织方案,即文档分割与词表分割。在阅读相关文献的基础上,提出了一种文本聚类方法下的索引分割组织方法。 三、由于分布式系统中索引库的数量较多,在进行检索时需要对索引库进行集合选择。目前有很多比较成熟的集合选择策略,如CORI、CRCS等,但普遍缺乏对语义的支持。本文提出了一种基于词语相似度的分布式检索集合选择策略,最后通过验证了它具有良好的查全率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;全文检索入佳境[J];微电脑世界;2000年37期
2 晓月;;全文检索原理及实现[J];程序员;2006年12期
3 吴泽彬;魏洁;李蔚清;吴慧中;;面向服务架构的全文检索研究[J];华中科技大学学报(自然科学版);2007年S1期
4 常征;;SQL Server 2000全文检索的实现[J];科技信息(科学教研);2007年16期
5 符捷雯;;媒体资料库的全文检索效率提升[J];中国传媒科技;2008年09期
6 肖海容;;图书资料“全文检索”系统的深入分析[J];信息与电脑(理论版);2013年05期
7 黄水清,吴欣;汉语古籍全文检索的试验与探讨[J];中文信息;1996年01期
8 朱本军;聂华;;低成本实现一站式全文检索[J];中国教育网络;2009年12期
9 崔国华;图书情报界信息管理中的全文检索[J];计算机与数字工程;2000年02期
10 李卫伟;全文数据光盘在校园网上的应用实践[J];情报杂志;2001年01期
11 常璐;SQL Server 2000全文检索服务的实现与使用[J];江苏图书馆学报;2002年06期
12 杨正宏;姚丽华;;《镇江年鉴(1992~2006)》全文检索数据库光盘制作完成[J];年鉴信息与研究;2007年Z1期
13 陈福生;;全文检索在网站搜索系统中的应用[J];电脑编程技巧与维护;2009年12期
14 谢正华;罗立芳;;基于多数据源的全文检索设计方案[J];中国科技信息;2010年10期
15 兰萍;;SQL Server 2005全文检索在数据查询中的应用[J];电脑编程技巧与维护;2010年20期
16 顾春庆,于玉,顾永立,胡运发;汉字全文检索的实现与探讨[J];计算机工程;1998年02期
17 李超;章义来;;基于蚁群算法的陶瓷云全文检索优化[J];福建电脑;2014年01期
18 杨建林;全文检索研究[J];情报理论与实践;2000年01期
19 程清亮;中文全文检索的发展[J];山西电子技术;2000年03期
20 刘向辉;;全文检索在SQL Server 2000中的应用[J];河北能源职业技术学院学报;2009年03期
中国重要会议论文全文数据库 前8条
1 曾福萍;周定康;;基于索引服务器实现全文检索[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 史建斌;;军控核查数据库光盘全文检索功能的原理及实现[A];中国工程物理研究院科技年报(2005)[C];2005年
3 范志新;王宁;陶晓鹏;施伯乐;;开放式图书馆汉语检索结构[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
4 朱虹;吴林;;DM4全文检索机制的设计[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 朱虹;黄欢;;DM4全文检索机制的改进[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 张谊岩;张霞;;OpenBASE中BLOB型文本数据全文检索的设计与实现[A];第十六届全国数据库学术会议论文集[C];1999年
7 刘亚军;刘延军;胡阳;;报刊图书数字资源公共服务平台项目规划设计[A];中国新闻技术工作者联合会2013年学术年会、五届五次理事会暨第六届“王选新闻科学技术奖”和优秀论文奖颁奖大会论文集(报业篇)[C];2013年
8 王富强;马德涛;张立朝;王建明;;地方志数据库全文信息检索研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
中国博士学位论文全文数据库 前2条
1 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
2 温延龙;XML信息检索关键技术研究[D];南开大学;2012年
中国硕士学位论文全文数据库 前10条
1 李帅;全文检索在“2008奥运多语言系统”中的应用研究与实现[D];北京工业大学;2009年
2 张翔;基于多核并行的全文检索动态后继树模型相关算法研究[D];广西大学;2013年
3 史杰;基于语义的全文检索优化和改进[D];江苏科技大学;2014年
4 林义明;全文检索及相关技术研究[D];辽宁科技大学;2012年
5 郭建荣;基于分布式计算的全文检索关键技术研究[D];北京邮电大学;2014年
6 陈宁;Lucene全文检索在网络教学平台中的应用研究[D];大连海事大学;2007年
7 卢光华;基于Lucene的全文检索研究与应用[D];吉林大学;2009年
8 王忠义;基于XML的全文检索方法及原型系统实现研究[D];华中师范大学;2009年
9 杨娜;基于lucene的轻量级全文检索系统模型研究[D];郑州大学;2009年
10 张维勤;基于SQL Server2000的中文全文检索[D];西安建筑科技大学;2007年
中国重要报纸全文数据库 前10条
1 冯贝;“工”于全文检索的数据库系统[N];科技日报;2001年
2 宁夏数据通信局 刘君;SQL Server 2000中全文检索的使用[N];计算机世界;2002年
3 郭莹;全文检索市场空间大[N];中国计算机报;2006年
4 陈玉荣;更多、更快、更新的检索系统[N];中国企业报;2000年
5 子华;从全文检索到信息整合[N];计算机世界;2003年
6 宁夏 刘君;SQL Server中全文检索的使用[N];电脑报;2001年
7 《金周刊》记者 康旻;下一个GOOGLE在等你去投资[N];中国经营报;2002年
8 朱艳;术语解释[N];中国电脑教育报;2000年
9 ;盘活内容 服务内外[N];计算机世界;2002年
10 ;深度开发利用 广泛资源共享[N];中国财经报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978