收藏本站
《湖南大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

面向可下载资源的WEB搜索引擎的设计与实现

刘宇波  
【摘要】:利用搜索引擎,人们可以在互联网中迅速定位自己所需的信息。以Google为代表的通用搜索引擎在信息检索方面很好的满足了用户的需求,但在搜索可下载资源方面,通用搜索引擎还存在着一些不足之处:大多数情况下都没有返回直接指向可下载资源的目标链接;没有对可下载资源的可访问性进行检测从而导致出现“死链”。本文通过研究可下载资源的特性,提出了一种新的面向可下载资源的搜索引擎,以此来弥补通用搜索引擎在搜索可下载资源方面的不足。 本文首先分析了可下载资源的特性,其与一般Web页面的区别是:Web页面只是通往可下载资源的路标,且无法确保能找到可下载资源;网站的知名度与其提供的可下载资源的质量之间并无必然联系。因此,在搜索引擎的设计上充分考虑可下载资源的特性是提高对可下载资源搜索质量的关键。 针对可下载资源的以上特性,本文设计了一种面向可下载资源的搜索引擎——SureDown。SureDown采取了以资源为中心的信息收集策略,Crawler访问资源时会检测其可访问性,并将与其关联的网页保存到本地数据库中;同时其索引的建立也只针对与资源关联的网页,在建立索引前,通过对网页进行预处理来构建资源描述文件,使得建立索引的开销大幅降低;而排序程序则通过计算资源描述文件中各标签内容与查询关键字的相关度来对搜索结果进行排序,最后由用户接口将资源描述文件中指向可下载资源的目标链接作为结果集返回给用户。新的搜索引擎在设计上充分考虑了可下载资源的特性。 基于提出的SureDown的设计思想,本文实现了SureDown的一个原型系统,该系统由Crawler模块,Indexer模块,Sorter模块,用户接口四部分组成。以此原型系统为平台,本文进行了一系列的实验,分别针对SureDown设计目的的达成度,Crawler的信息收集效率,系统的伸缩性进行了测试。实验表明本文提出的SureDown搜索引擎在可下载资源搜索方面较好的弥补了通用搜索引擎的不足之处。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.3

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 张卫丰;徐宝文;周晓宇;许蕾;李东;;Web搜索引擎综述[J];计算机科学;2001年09期
2 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期
【共引文献】
中国期刊全文数据库 前10条
1 汪洁;朱军;;基于Linux的中文垃圾邮件过滤系统设计与实现[J];安徽农业大学学报;2011年02期
2 朱力平,丰国炳;用基于内容的Web图像搜索引擎设计消防电子化道路水源手册[J];安全与环境学报;2004年03期
3 姚克娟,李晋宏;应用Agent技术实现个性化信息服务[J];北方工业大学学报;2004年03期
4 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
5 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
6 王冬青;;远程教育个性化学习支持服务研究[J];中国远程教育;2008年08期
7 杨仁广;孟祥增;;网络多媒体教学资源主题搜索研究[J];电化教育研究;2009年05期
8 傅巍玮;李仁发;刘钰峰;黄松立;;基于Solr的分布式实时搜索模型研究与实现[J];电信科学;2011年11期
9 唐忠;欧旭;;因特网搜索引擎技术原理及发展趋势研究[J];大众科技;2009年01期
10 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
中国重要会议论文全文数据库 前7条
1 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
2 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘宝良;李建中;;crlib:可交互异构Crawler框架的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
6 刘勘;尹承明;陈凡;;图书借阅信息的分析与挖掘[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
7 袁晓洁;窦志成;刘芳;张路;;一种基于动态用户模型的个性化Web搜索算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
3 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
4 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
5 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
6 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
7 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
8 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
9 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
10 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 吴则则;支持动态演进的用户兴趣模型挖掘方法研究[D];山东科技大学;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
4 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
5 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
6 韩兆国;电信计费帐务系统核心模块的设计[D];哈尔滨工程大学;2010年
7 唐微;网络信息提取系统关键技术研究[D];大连理工大学;2009年
8 闫兆法;基于多模态粒子群优化的社会网络分析研究[D];大连理工大学;2010年
9 张囡囡;面向教育硕士培养的个性化教育资源平台的研究[D];辽宁师范大学;2010年
10 刘林;基于语义的元搜索引擎关键技术研究[D];河南工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 曾春,邢春晓,周立柱;个性化服务技术综述[J];软件学报;2002年10期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026