收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

分布式全文索引技术的研究

孙丽  
【摘要】: 分布式全文检索技术是现代信息处理的一项重要技术,在搜索引擎、竞争情报、舆情监控等领域中具有广泛的应用价值。对高效分布式全文索引技术的研究和探索不仅有很高的理论价值,而且极具商业前景。分布式索引系统中的关键技术主要包括索引创建和更新,分布式索引数据分配,分布式索引的负载均衡,分布式索引查询等方面。因此本文采用现有的比较成熟的索引创建技术,而把索引数据的分配作为一个研究重点,在索引分配策略的基础上研究索引的更新以及查询,并实现了一个在舆情监控系统应用的分布式索引系统。 索引系统的性能是影响搜索引擎查询效率的关键因素。传统的搜索引擎架构中的索引系统一般是运行在大规模高性能的集群上,这需要昂贵的硬件费用。如果能设计出一种能在由互联网连接的若干小规模集群上运行的分布式索引系统,将会大大的降低系统的硬件成本。当前分布式索引的索引策略主要有词表划分和文档划分两种,但二者都有相应的优缺点,单纯的选择一种构建分布式索引系统都不会具有很好的效果,结合两者的优点,并根据应用网络环境由互联网连接的若干集群的特点,提出了一种分层结构的分布式索引数据划分方法。在集群之间采用文档划分,集群内部采用词表划分,并添加针对于索引更新的更新索引服务器。通过实验验证该分层结构的分布式索引系统以较低的资源占用取得了较高的查询效率,并且也具有较高的负载均衡水平。 为了使舆情监控达到更好的效果,在建立索引之前,对舆情监控涉及到的新闻、博客和论坛的网页做了内容提取,提取出舆情监控关注的信息,只对这些信息建立索引,提高了舆情检索的准确和性索引建立效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 曹军,肖建田,刘霞;借用外存构造后缀数组的优化算法[J];南华大学学报(自然科学版);2005年01期
2 陈慧萍;于国政;王建东;;全文索引技术在办公自动化系统中的应用研究[J];计算机应用研究;2007年02期
3 于海波;;分布式索引的研究与应用[J];黑龙江科技信息;2010年26期
4 沈健;;基于Lucene的电子文档管理系统的设计与实现[J];科学时代;2008年02期
5 聂文琪;;全文索引模型探析[J];武汉交通职业学院学报;2006年01期
6 ;总论[J];电子科技文摘;2001年08期
7 何宗要,田慧;SQL Server的全文索引及优化[J];平顶山学院学报;2005年05期
8 林晶;;企业MIS中全文检索技术的应用研究[J];怀化学院学报;2010年02期
9 柴荣军;张菲苗;;基于SQL server2005的全文检索技术探究[J];才智;2010年27期
10 潘以锋;;基于Lucene的网站全文检索系统的开发[J];广西教育学院学报;2006年05期
11 杨炜鸿;张毅;于洪梅;;基于模拟后缀数组索引结构的实现[J];情报科学;2009年12期
12 兰萍;;SQL Server 2005全文检索在数据查询中的应用[J];电脑编程技巧与维护;2010年20期
13 赵伟;张学;廉鑫;;全文检索应用开发中的性能优化方法[J];信息与电脑(理论版);2011年04期
14 郭鹏;王斌;王国仁;张恩德;;PR-tree:P2P环境下一种多维数据的分布式索引结构[J];华中科技大学学报(自然科学版);2005年S1期
15 刘建湘;杨文涛;;基于Lucene的搜索引擎在Struts中的应用[J];软件导刊;2007年03期
16 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
17 姚全珠;张楠;杨增辉;田元;;基于压缩后缀数组技术的搜索引擎[J];计算机工程;2008年10期
18 吴微微;李谊瑞;杨建思;;由Lucene建立地震资料文献全文索引检索系统[J];四川地震;2008年03期
19 赵力;;网站全文搜索引擎技术的初步研究及应用[J];科技信息;2009年11期
20 熊定富;;基于开源Lucene2.0的书目搜索引擎设计与实现[J];图书情报知识;2009年04期
中国重要会议论文全文数据库 前10条
1 张玥;俞昊旻;张奇;黄萱菁;;面向文本拷贝检测的分布式索引[A];第六届全国信息检索学术会议论文集[C];2010年
2 陈占龙;吴信才;谢忠;吴亮;;分布式空间数据索引机制研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
4 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
10 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 付永生;无线Ad Hoc网络中可靠路由若干关键问题的研究[D];浙江大学;2010年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
8 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
中国硕士学位论文全文数据库 前10条
1 孙丽;分布式全文索引技术的研究[D];哈尔滨工业大学;2010年
2 章剑涛;并行数据仓库环境下基于B~+树的分布式索引研究[D];燕山大学;2010年
3 张佶;基于可扩展分布式架构的高校搜索引擎研究与实现[D];东华大学;2010年
4 张玲玲;分布式WEB文档全文索引关键技术研究[D];哈尔滨工业大学;2006年
5 陈宜明;分布式索引在大规模视觉搜索中的研究与应用[D];中国科学院研究生院(沈阳计算技术研究所);2012年
6 王正刚;搜索引擎关键技术研究与实现[D];复旦大学;2008年
7 廖继东;基于DotLucene网站全文搜索系统的实现[D];郑州大学;2007年
8 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年
9 吴宝贵;搜索引擎中索引技术研究与实现[D];西安电子科技大学;2008年
10 向晖;DRIS系统中的中文自动分词模块设计与实现[D];华中科技大学;2007年
中国重要报纸全文数据库 前10条
1 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
2 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
3 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
4 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
5 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
6 李一鑫;搜索排名的红与黑[N];财经时报;2007年
7 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
8 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
9 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
10 李同;怎样选择“付费搜索引擎”[N];光明日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978