收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

搜索引擎中Crawler的设计、实现与扩展优化

杨帅  
【摘要】: 搜索引擎,是指一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。 本文首先对搜索引擎的关键技术进行了全面分析,包括:索引器原理、搜索器原理、爬取器原理、网页质量评估算法、词法分析理论、中文分词技术、文件倒排技术、布尔查询理论。然后,在搜索引擎关键技术的基础上,基于一个轻量级的架构设计了搜索引擎的三个主要模块:网页爬虫、索引器与搜索器。并重点实现了网页爬虫模块。 网页爬虫模块中:在实现其核心功能的基础上,提出了以下几种优化方案: 1、增量式模型及其实现:增量式搜集只对部分页面进行更新就可以刷新页面集,可以大幅度减少批量更新次数,提高页面集的新鲜度。 2、分布式扩展与实现:把一个搜集节点扩展为多个搜集节点,节点之间相互通信,并增加了控制节点来协调各节点的工作。 3、网页权值计算:用于评估网页的重要性,为网页排序提供依据。采用了Google的PageRank算法。 4、对磁盘存储方式进行扩展:利用面向对象语言的继承与派生机制,对数据库存储方式和容错文件格式提供了支持。 5、提出了一种新的网页爬取策略:在第一次搜集网页时根据计时策略给每个URL赋一个权值。在下一次爬取网页的时候根据权值的大小去确定访问URL的先后次序,避免带宽资源过多浪费在低性能的服务器上。 索引模块中:首先,讨论了中文分词的设计思想,选择了分词的算法。然后,提出了正向索引文件的建立策略。最后,给出了倒排索引的分级索引方案。搜索模块中:首先,给出了搜索器的布尔查询方案。然后,讨论了怎样根据倒排索引实施布尔查询。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杜素芳;韩利娟;;C#索引器教学法探讨[J];濮阳职业技术学院学报;2011年03期
2 曾宜礼;;搜索引擎技术综述[J];科技情报开发与经济;2007年06期
3 杨睿娜;;C#索引器的使用方法[J];安徽电子信息职业技术学院学报;2010年03期
4 张汛涞;搜索引擎的设计剖析[J];计算机工程与科学;2002年04期
5 谭营军;李翠霞;;搜索引擎技术的研究与展望[J];电脑知识与技术;2011年03期
6 顾玲华;;基于搜索引擎发现技术的网页存储[J];苏州大学学报(工科版);2011年02期
7 周锦程;王丹;余泉;张维;;基于Lucene的全文检索系统的研究与实现[J];计算机技术与发展;2011年03期
8 廖绍雯;陈勇;;个性化搜索引擎关键技术及应用[J];软件导刊;2011年08期
9 梁弼;王光琼;邓小清;;基于Lucene的全文检索系统模型的研究及应用[J];微型机与应用;2011年01期
10 谢命坚;;在Windows应用程序中使用索引器[J];中国科技信息;2007年12期
11 鲁寅辉;高珺;;基于网页对比的校园二级网站防篡改监控系统的设计与实现[J];实验技术与管理;2011年06期
12 李航;叶飞跃;边利亚;于志安;;校园网垂直搜索引擎方法研究与实现[J];微计算机信息;2010年30期
13 李国平;通过C#实现集合类纵览.NET Collections及相关技术[J];电脑编程技巧与维护;2004年05期
14 林夕伟;;网络搜索引擎技术与应用[J];浙江教育学院学报;2010年01期
15 周毅;通向.NET认证之路:C#语言基础[J];电脑知识与技术;2004年11期
16 梁正友;陈涛;;基于ProActive的分布式并行网页索引算法[J];计算机工程;2009年20期
17 赵湘宁;.NET中的特殊类型成员[J];软件世界;2002年01期
18 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎索引器的设计与实现[J];情报杂志;2008年10期
19 阿仔;搜索引擎的自白[J];电脑爱好者;2004年09期
20 马苏拉;朱盛;;搜索引擎系统:UML/OCL模型驱动开发[J];计算机工程与应用;2010年22期
中国重要会议论文全文数据库 前7条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎中查询处理研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 ;Web搜索引擎原理与应用[A];四川省通信学会2005年学术年会论文集[C];2005年
5 邱儒琼;郑丽娜;谢超;;基于语义提取的中文地名搜索引擎研究[A];全国测绘科技信息网中南分网第二十四次学术信息交流会论文集[C];2010年
6 史建斌;;军控核查数据库光盘全文检索功能的原理及实现[A];中国工程物理研究院科技年报(2005)[C];2005年
7 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前1条
1 程传慧;大型复杂组合式P2P网络系统的研究[D];武汉理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 杨帅;搜索引擎中Crawler的设计、实现与扩展优化[D];电子科技大学;2009年
2 江毅铭;专业搜索引擎索引技术的研究与实现[D];北京化工大学;2005年
3 翟凤红;商品搜索引擎系统[D];吉林大学;2005年
4 何源源;迅雷资源搜索引擎的研究与实现[D];西北工业大学;2007年
5 赵会杰;中文全文检索系统中索引的研究[D];北京交通大学;2007年
6 胡晓博;面向特定领域的专业搜索引擎的架构与实现方法[D];哈尔滨工程大学;2007年
7 吴佩韦;基于Lucene的汽车信息垂直搜索引擎的设计与实现[D];西安建筑科技大学;2009年
8 罗理;基于Web对象的分布式抓取及存储的设计与研究[D];昆明理工大学;2008年
9 洪峰;基于LUCENE的公安情报共享系统的研究与实现[D];上海交通大学;2008年
10 张宏松;基于Lucene的web站内英文PDF文档全文检索研究[D];辽宁工程技术大学;2007年
中国重要报纸全文数据库 前9条
1 南京邮电学院 李建忠;索引器与操作符重载[N];计算机世界;2002年
2 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
3 彭芳;搜索也专业[N];中国计算机报;2004年
4 郑依华;搜索引擎也开源[N];计算机世界;2006年
5 赵志荣;专题性搜索引擎[N];计算机世界;2000年
6 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
7 南京邮电学院 李建忠;字符串[N];计算机世界;2002年
8 南京邮电学院 李建忠;接口继承与多态[N];计算机世界;2002年
9 应晓敏 窦文华;条条道路通罗马[N];计算机世界;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978