收藏本站
《清华大学》 2011年 博士论文
收藏 | 手机打开
二维码
手机客户端打开本文

分布协作式搜索引擎模型及算法研究

刘佐达  
【摘要】:互联网的迅速发展对集中式搜索引擎的可扩展性、覆盖率、实时性、专业性、个性化、多元化等提出了挑战。云计算面向服务的理念为搜索引擎的发展提供了新的机遇,而集中式搜索引擎只关注对人类用户的服务,忽视了互联网上的虚拟用户——网站,从而无法为网站提供量身定做的信息检索服务。分布式搜索引擎较好地解决了集中式搜索引擎所面临的诸多问题,更加适应下一代互联网。 本文提出了分布式搜索引擎可分配计算模型,将分布式搜索引擎的体系结构对应为计算供给与需求的均衡状态,对搜索引擎的分布式和集中式具有相同的解释力。模型指出分布式搜索引擎相比于集中式搜索引擎,更加充分地利用了单元节点的计算资源,实现计算的跨网络分配和使用。 本文对分布式搜索引擎的协作式与非协作式进行了对比,指出协作式相对于非协作式而言,具有精度高、资源占用少等优势,所以本文选择分布协作式搜索引擎作为研究对象。 本文讨论了分布协作式搜索引擎系统的计算分配问题,将计算更多地分配到节点以提高系统的可扩展性。本文对分布协作式搜索引擎可能出现的查询效率降低问题进行了研究,提出二次检索的解决方案,即在中心实现以节点为粒度的信息检索,而在节点实现以网页为粒度的信息检索。在此基础上,本文综合考虑计算分配以及查询效率两个方面,提出分布协作式搜索引擎二次检索架构。 针对具有二次检索的分布协作式搜索引擎架构,本文提出了旨在提高中心对节点计算利用效率的任务调度算法——双层定向MapReduce算法,将节点资源统计和用户查询响应两个层面的任务进行整体优化,仿真实验显示,相比于其他算法,本算法有效降低了查询过程通信成本及中心服务器平均负载,代价是中心服务器的负载均衡度在不影响系统整体性能的范围内有所下降。本算法在服务器索引超负荷时自动退化为随机MapReduce算法,而在其他情况下都有明显的优势。 本文将提出的模型、架构及算法应用于真实系统,开发了基于SOA的分布式联邦搜索引擎原型系统。联邦各个节点遵从共同的通信协议,采用SOAP协议进行通信,并通过WSDL形式发布网页检索服务。本文选取两类异构节点验证了系统的高度可扩展性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王延锋;赵洁;;CHKD及其在医院的应用[J];延安大学学报(医学科学版);2006年01期
2 徐飞;白云燕;何顺志;;基于.NET技术的中草药资源信息查询系统的设计与实现[J];贵州农业科学;2008年04期
3 廖凤;张建勇;;Keyword Cloud在文献检索中的应用研究[J];图书馆杂志;2010年09期
4 郑立垠;郎颖莹;;基于反馈的多构件库二次检索[J];微型电脑应用;2010年09期
5 吴代文;;基于Lucene全文检索应用研究[J];微计算机应用;2011年02期
6 葛川;陈洪梅;刘岚;;数字资源统一检索系统的设计与实现[J];现代情报;2011年04期
7 福岛勋,邵洪泽;日本联机情报检索系统JOIS-Ⅱ介绍[J];现代图书情报技术;1981年04期
8 华晓燕,郭平;HJHXS(环境化学所)情报检索系统[J];现代图书情报技术;1984年03期
9 杨真荣,沈迪飞,张希轩,晁芳,朱献有,许志强;科技情报检索算法和LASIRS软件系统[J];计算机学报;1985年05期
10 曹志梅;中国期刊网镜像站点的使用评价[J];情报理论与实践;2001年03期
11 张永红,蒋谦;中国期刊全文数据库检索系统的比较研究[J];西南民族大学学报(人文社科版);2004年05期
12 张旭昶;;清华同方全中文数据库CHKD在我院的应用[J];医学综述;2006年13期
13 王正刚;贺皓;杨义传;胡运发;;黄页搜索引擎中二次检索的实现技术[J];计算机应用与软件;2008年10期
14 张荣超;;“中外专利数据库服务平台”开放存取专利文献资源[J];兰台世界;2011年04期
15 吴代文;詹海生;;西安市数字方志全文检索系统的设计与实现[J];计算机技术与发展;2011年10期
16 辛乘胜;微型计算机汉字情报检索系统[J];现代图书情报技术;1984年01期
17 姜希强;;情报检索系统中的主文档[J];情报科学;1984年05期
18 张欣;河南省图书馆联机检索子系统的特点[J];河南图书馆学刊;1995年02期
19 柴俊,苏晓鹭;浅谈原文检索技术[J];农业图书情报学刊;1998年06期
20 陆宏弟;《中国重要报纸专题全文数据库》的检索[J];情报科学;2002年05期
中国重要会议论文全文数据库 前10条
1 鲍梦熊;;加快实质审查进程初探[A];专利法研究(1998)[C];1998年
2 谢梦洲;瞿年清;袁肇凯;瞿岳云;朱文锋;;中医诊断学信息系统的研制[A];中华中医药学会中医诊断学分会成立暨学术研讨会论文集[C];2006年
3 刘振鹏;伊开;宋晓静;张思亮;;基于对等体组的Web服务发现机制[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
4 陈榕;;CHKD在我院局域网的应用[A];中华医学会第十二次全国医学信息学术会议论文汇编[C];2006年
5 任仰武;张群弟;周宝森;;GPX1 Pro198Leu基因多态性与肿瘤易感性关系[A];全国肿瘤流行病学和肿瘤病因学学术会议论文集[C];2011年
6 丁志新;;浅谈专利信息分析的运用和解读[A];实施国家知识产权战略,促进专利代理行业发展-2010年中华全国专利代理人协会年会暨首届知识产权论坛论文集[C];2010年
7 谢环青;;论高校图书馆对科技期刊的管理[A];超越平凡——2004'中国科技期刊发展论坛文萃[C];2004年
8 史建斌;;军控核查数据库光盘全文检索功能的原理及实现[A];中国工程物理研究院科技年报(2005)[C];2005年
9 谢梦洲;瞿年清;袁肇凯;瞿岳云;朱文锋;;中医诊断学信息系统的研制[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
10 赵盛龙;钟俊生;;中国海洋鱼类数据库[A];中国海洋湖沼动物学会鱼类学分会第七届会员代表大会暨朱元鼎教授诞辰110周年庆学术研讨会学术论文摘要集[C];2006年
中国博士学位论文全文数据库 前1条
1 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
中国硕士学位论文全文数据库 前10条
1 林永志;基于语义关系识别的二次检索[D];上海交通大学;2009年
2 刘慧薇;文物图像辨识及检索软件的开发研究[D];西安理工大学;2006年
3 施韶亭;异构数字资源跨库检索系统设计与实现[D];兰州大学;2007年
4 崔丹;开放获取资源及其评价研究[D];东北师范大学;2008年
5 王正刚;搜索引擎关键技术研究与实现[D];复旦大学;2008年
6 贾林;基于多特征的图像检索技术研究[D];中国海洋大学;2005年
7 李云龙;基于商标形状的傅里叶描述和颜色特征的商标图像检索[D];云南师范大学;2005年
8 洪李栋;产品外观设计专利检索与分析系统的研究和实现[D];浙江大学;2006年
9 黄铉;小波变换在多媒体图像检索中的应用研究[D];西南交通大学;2006年
10 杨佳;基于形式概念分析的图像检索[D];兰州理工大学;2008年
中国重要报纸全文数据库 前10条
1 本报记者 成静;硬盘搜索:从海量资料里萃精华[N];中国经济导报;2006年
2 贾鹏雷;Bing的最佳出路[N];计算机世界;2009年
3 陈可冀;古为今用洋为中用[N];健康报;2002年
4 本报记者 孙志永;国信贝斯iBASE 为数据库添加“全文检索”[N];中国计算机报;2001年
5 金巍;图书馆无处不在[N];计算机世界;2001年
6 记者秦京午;高校案例教学研讨会在北京大学举行[N];人民日报海外版;2002年
7 许桂清;走向信息化[N];中国档案报;2007年
8 黄 浩;政府门户网站应引进CRM意识[N];中国国门时报;2006年
9 黄浩;政务门户信息导航该引进CRM意识[N];中国计算机报;2006年
10 沈洪 陈滟;首个检验检疫标准文本查询系统开通[N];中国质量报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978