收藏本站
《清华大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

分布协作式搜索引擎模型及算法研究

刘佐达  
【摘要】:互联网的迅速发展对集中式搜索引擎的可扩展性、覆盖率、实时性、专业性、个性化、多元化等提出了挑战。云计算面向服务的理念为搜索引擎的发展提供了新的机遇,而集中式搜索引擎只关注对人类用户的服务,忽视了互联网上的虚拟用户——网站,从而无法为网站提供量身定做的信息检索服务。分布式搜索引擎较好地解决了集中式搜索引擎所面临的诸多问题,更加适应下一代互联网。 本文提出了分布式搜索引擎可分配计算模型,将分布式搜索引擎的体系结构对应为计算供给与需求的均衡状态,对搜索引擎的分布式和集中式具有相同的解释力。模型指出分布式搜索引擎相比于集中式搜索引擎,更加充分地利用了单元节点的计算资源,实现计算的跨网络分配和使用。 本文对分布式搜索引擎的协作式与非协作式进行了对比,指出协作式相对于非协作式而言,具有精度高、资源占用少等优势,所以本文选择分布协作式搜索引擎作为研究对象。 本文讨论了分布协作式搜索引擎系统的计算分配问题,将计算更多地分配到节点以提高系统的可扩展性。本文对分布协作式搜索引擎可能出现的查询效率降低问题进行了研究,提出二次检索的解决方案,即在中心实现以节点为粒度的信息检索,而在节点实现以网页为粒度的信息检索。在此基础上,本文综合考虑计算分配以及查询效率两个方面,提出分布协作式搜索引擎二次检索架构。 针对具有二次检索的分布协作式搜索引擎架构,本文提出了旨在提高中心对节点计算利用效率的任务调度算法——双层定向MapReduce算法,将节点资源统计和用户查询响应两个层面的任务进行整体优化,仿真实验显示,相比于其他算法,本算法有效降低了查询过程通信成本及中心服务器平均负载,代价是中心服务器的负载均衡度在不影响系统整体性能的范围内有所下降。本算法在服务器索引超负荷时自动退化为随机MapReduce算法,而在其他情况下都有明显的优势。 本文将提出的模型、架构及算法应用于真实系统,开发了基于SOA的分布式联邦搜索引擎原型系统。联邦各个节点遵从共同的通信协议,采用SOAP协议进行通信,并通过WSDL形式发布网页检索服务。本文选取两类异构节点验证了系统的高度可扩展性。
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前1条
1 郭小溪;基于PageRank算法的分布式搜索引擎技术研究[D];大连交通大学;2013年
【参考文献】
中国期刊全文数据库 前5条
1 李德毅;;云计算支撑信息服务社会化、集约化和专业化[J];重庆邮电大学学报(自然科学版);2010年06期
2 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
3 胡海波;王林;;幂律分布研究简史[J];物理;2005年12期
4 吴宝贵;丁振国;;基于Map/Reduce的分布式搜索引擎研究[J];现代图书情报技术;2007年08期
5 李德毅;陈桂生;张海粟;;云计算热点问题分析[J];中兴通讯技术;2010年04期
中国重要报纸全文数据库 前1条
1 本报记者 祁金华;[N];网络世界;2007年
中国硕士学位论文全文数据库 前2条
1 陈全;异构环境下Map-Reduce调度算法的研究[D];上海交通大学;2009年
2 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 宋兵;;基于复杂网络的农作物细菌性病害传播模型初探[J];安徽农业科学;2011年34期
2 魏东泽;来学嘉;;一种安全的高可靠性P2P云存储备份模型初探参考文献[J];信息安全与技术;2011年09期
3 糜娴雅;李唯佳;;云计算面临的问题与应对策略研究[J];信息安全与技术;2012年02期
4 魏娟;宋福庆;;两种全局同步稳定性方法的比较与应用[J];安阳师范学院学报;2011年05期
5 王继鹏;;高等教育云计算服务平台构建策略初探[J];安阳师范学院学报;2011年05期
6 黄树林;鞠颂东;董军;;企业集团网络化物流模式的结构分析[J];北京交通大学学报(社会科学版);2011年01期
7 刘真;刘峰;张宝鹏;马飞;高石玉;;云计算模型在铁路大规模数据处理中的应用[J];北京交通大学学报;2010年05期
8 尹向敏;李元左;罗小明;;陆军武器装备综合集成系统复杂性研究[J];兵工自动化;2007年10期
9 邱原;邢焕革;;基于复杂理论的作战网络关键边评估方法[J];兵工自动化;2011年08期
10 马睿;朱建冲;杨美玲;;基于改进聚类生存度的军事通信网可靠性分析[J];兵工自动化;2012年06期
中国重要会议论文全文数据库 前10条
1 万丹丹;王宏;;云计算在编辑工作中的应用探讨[A];学术期刊编辑学理论与实践[C];2010年
2 陈树文;高琼;;网络结构视角下中关村产业集群创新驱动困境与建议[A];创新驱动与首都“十二五”发展——2011首都论坛文集[C];2011年
3 耿志勇;;具有静态非线性互联结构的分布式异构系统的稳定性[A];第二十六届中国控制会议论文集[C];2007年
4 李鑫滨;王腊梅;刘仙;;基于动态复杂网络的Van der pol振子同步[A];第二十九届中国控制会议论文集[C];2010年
5 李立;;BA无标度网络中混沌动力系统的同步分析及控制[A];第二十九届中国控制会议论文集[C];2010年
6 张跃;蒋国平;;一类混沌复杂动态网络不稳定平衡点的牵制控制[A];中国自动化学会控制理论专业委员会A卷[C];2011年
7 郭捷夫;;基于云计算模型的绿色IT数据中心构建方案研究[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
8 汪云凤;李心科;;云服务环境下的服务聚合方法研究[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
9 刘则渊;朱晓宇;;国际科学计量学及其姊妹学科的计量与图谱[A];第七届中国科技政策与管理学术年会论文集[C];2011年
10 郑新奇;苏艳军;杨光;王淑晴;;城市道路网络复杂性的研究方法——空间句法与复杂网络模型的集成分析[A];《测绘通报》测绘科学前沿技术论坛摘要集[C];2008年
中国博士学位论文全文数据库 前10条
1 杜文博;面向航空交通系统的复杂网络与网络动力学研究[D];中国科学技术大学;2010年
2 籍艳;几类时滞系统的稳定与同步[D];江南大学;2010年
3 徐旭林;社会群体行为建模及其动力学分析[D];南开大学;2010年
4 吴吉义;基于DHT的开放对等云存储服务系统研究[D];浙江大学;2011年
5 王铁军;非结构化对等网络资源定位技术研究[D];电子科技大学;2010年
6 江颉;面向电子服务的访问控制关键技术研究[D];浙江大学;2010年
7 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
8 张建辉;节点势能导向多下一跳路由协议研究与性能评价[D];解放军信息工程大学;2009年
9 高磊;P2P工作流系统中的资源搜索及负载均衡优化研究[D];山东大学;2010年
10 郭迟;基于复杂网络的Internet脆弱性研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 苏延森;刺激下拟南芥基因逻辑网络构建与分析[D];山东科技大学;2010年
2 李二艳;刺激下拟南芥基因相关网络构建与分析[D];山东科技大学;2010年
3 周斌;复杂网络的社团结构挖掘及应用研究[D];广西师范学院;2010年
4 孔楠;基于云计算平台的商业服务模式研究[D];上海外国语大学;2010年
5 高萌;复杂神经元网络的同步问题研究[D];哈尔滨工程大学;2010年
6 康兴元;面向模具企业的注塑模设计知识网络化管理系统研究[D];大连理工大学;2010年
7 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
8 孔健;基于半监督学习的社团划分算法研究[D];辽宁师范大学;2010年
9 姜健;云计算在企业物资供应系统的应用研究[D];辽宁工程技术大学;2009年
10 贾琳;基于复杂网络的海洋排污权配置及其交易机制研究[D];中国海洋大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期
2 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期
3 姚文琳;刘文;;一种基于本体的PageRank算法的改进策略[J];计算机工程;2009年06期
4 陈玮,陈玉鹏,石晶,陆达;一种高效的全文检索索引技术[J];计算机应用研究;2004年07期
5 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
6 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
7 张岭,叶允明,宋晖,于水,马范援;一种高性能分布式Web Crawler的设计与实现[J];上海交通大学学报;2004年01期
8 管建和;甘剑峰;;基于Lucene全文检索引擎的应用研究与实现[J];计算机工程与设计;2007年02期
9 龚丽萍;;搜索引擎Google与百度比较研究[J];图书情报论坛;2007年03期
10 吴宝贵;丁振国;;基于Map/Reduce的分布式搜索引擎研究[J];现代图书情报技术;2007年08期
中国博士学位论文全文数据库 前1条
1 刘玉婷;网页排序中的随机模型及算法[D];北京交通大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 潘以锋;;基于Lucene的网站全文检索系统的开发[J];广西教育学院学报;2006年05期
2 张卫丰;徐宝文;周晓宇;许蕾;李东;;Web搜索引擎综述[J];计算机科学;2001年09期
3 彭洪汇;林作铨;;Internet上的搜索引擎和元搜索引擎[J];计算机科学;2002年09期
4 申展;江宝林;陈祎;唐磊;胡运发;;全文检索模型综述[J];计算机科学;2004年05期
5 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期
6 郑欣杰;朱程荣;熊齐邦;;基于MapReduce的分布式光线跟踪的设计与实现[J];计算机工程;2007年22期
7 屈培;葛蓁;;Nutch-0.8.1中二分法中文分词的实现[J];计算机时代;2007年07期
8 钱兵;王永成;高凯;;面向搜索引擎的自然语言理解的设计与实现[J];计算机应用研究;2006年12期
9 姚树宇,赵少东;一种使用分布式技术的搜索引擎[J];计算机应用与软件;2005年10期
10 蒋建洪;;主要分布式搜索引擎技术的研究[J];科学技术与工程;2007年10期
中国重要报纸全文数据库 前1条
1 本报记者 祁金华;[N];网络世界;2007年
中国硕士学位论文全文数据库 前1条
1 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 许志强;LASIRS联机情报检索系统的原文检索及其实现技术[J];现代图书情报技术;1982年Z1期
2 王延锋;赵洁;;CHKD及其在医院的应用[J];延安大学学报(医学科学版);2006年01期
3 徐飞;白云燕;何顺志;;基于.NET技术的中草药资源信息查询系统的设计与实现[J];贵州农业科学;2008年04期
4 廖凤;张建勇;;Keyword Cloud在文献检索中的应用研究[J];图书馆杂志;2010年09期
5 郑立垠;郎颖莹;;基于反馈的多构件库二次检索[J];微型电脑应用;2010年09期
6 吴代文;;基于Lucene全文检索应用研究[J];微计算机应用;2011年02期
7 葛川;陈洪梅;刘岚;;数字资源统一检索系统的设计与实现[J];现代情报;2011年04期
8 福岛勋,邵洪泽;日本联机情报检索系统JOIS-Ⅱ介绍[J];现代图书情报技术;1981年04期
9 华晓燕,郭平;HJHXS(环境化学所)情报检索系统[J];现代图书情报技术;1984年03期
10 杨真荣,沈迪飞,张希轩,晁芳,朱献有,许志强;科技情报检索算法和LASIRS软件系统[J];计算机学报;1985年05期
中国重要会议论文全文数据库 前10条
1 鲍梦熊;;加快实质审查进程初探[A];专利法研究(1998)[C];1998年
2 谢梦洲;瞿年清;袁肇凯;瞿岳云;朱文锋;;中医诊断学信息系统的研制[A];中华中医药学会中医诊断学分会成立暨学术研讨会论文集[C];2006年
3 刘振鹏;伊开;宋晓静;张思亮;;基于对等体组的Web服务发现机制[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
4 陈榕;;CHKD在我院局域网的应用[A];中华医学会第十二次全国医学信息学术会议论文汇编[C];2006年
5 任仰武;张群弟;周宝森;;GPX1 Pro198Leu基因多态性与肿瘤易感性关系[A];全国肿瘤流行病学和肿瘤病因学学术会议论文集[C];2011年
6 丁志新;;浅谈专利信息分析的运用和解读[A];实施国家知识产权战略,促进专利代理行业发展-2010年中华全国专利代理人协会年会暨首届知识产权论坛论文集[C];2010年
7 谢环青;;论高校图书馆对科技期刊的管理[A];超越平凡——2004'中国科技期刊发展论坛文萃[C];2004年
8 史建斌;;军控核查数据库光盘全文检索功能的原理及实现[A];中国工程物理研究院科技年报(2005)[C];2005年
9 谢梦洲;瞿年清;袁肇凯;瞿岳云;朱文锋;;中医诊断学信息系统的研制[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
10 赵盛龙;钟俊生;;中国海洋鱼类数据库[A];中国海洋湖沼动物学会鱼类学分会第七届会员代表大会暨朱元鼎教授诞辰110周年庆学术研讨会学术论文摘要集[C];2006年
中国重要报纸全文数据库 前10条
1 本报记者 成静;硬盘搜索:从海量资料里萃精华[N];中国经济导报;2006年
2 贾鹏雷;Bing的最佳出路[N];计算机世界;2009年
3 陈可冀;古为今用洋为中用[N];健康报;2002年
4 本报记者 孙志永;国信贝斯iBASE 为数据库添加“全文检索”[N];中国计算机报;2001年
5 金巍;图书馆无处不在[N];计算机世界;2001年
6 记者秦京午;高校案例教学研讨会在北京大学举行[N];人民日报海外版;2002年
7 许桂清;走向信息化[N];中国档案报;2007年
8 黄 浩;政府门户网站应引进CRM意识[N];中国国门时报;2006年
9 黄浩;政务门户信息导航该引进CRM意识[N];中国计算机报;2006年
10 沈洪 陈滟;首个检验检疫标准文本查询系统开通[N];中国质量报;2004年
中国博士学位论文全文数据库 前1条
1 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
中国硕士学位论文全文数据库 前10条
1 林永志;基于语义关系识别的二次检索[D];上海交通大学;2009年
2 刘慧薇;文物图像辨识及检索软件的开发研究[D];西安理工大学;2006年
3 施韶亭;异构数字资源跨库检索系统设计与实现[D];兰州大学;2007年
4 崔丹;开放获取资源及其评价研究[D];东北师范大学;2008年
5 王正刚;搜索引擎关键技术研究与实现[D];复旦大学;2008年
6 贾林;基于多特征的图像检索技术研究[D];中国海洋大学;2005年
7 李云龙;基于商标形状的傅里叶描述和颜色特征的商标图像检索[D];云南师范大学;2005年
8 洪李栋;产品外观设计专利检索与分析系统的研究和实现[D];浙江大学;2006年
9 黄铉;小波变换在多媒体图像检索中的应用研究[D];西南交通大学;2006年
10 杨佳;基于形式概念分析的图像检索[D];兰州理工大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026