收藏本站
《中国地质大学(北京)》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

垂直搜索引擎中网络蜘蛛的设计与实现

薛建春  
【摘要】: 随着Internet的迅速发展,网络成为当今世界最大的信息库,它为信息共享和资源共享提供了一个良好的平台。然而大量的网页资源和网页的动态特性要求信息搜索系统不断升级,同时人们对获取信息的时效性、针对性、准确性等方面有了新的要求。因此基于各专业的搜索系统也应运而生。如何能更快速、更准确的得到网络中的有用信息资源是网络用户面临的一个重要问题,而搜索引擎技术恰好能解决此难题。搜索引擎主要由搜索器、索引器、检索器和用户接口四部分组成。搜索器旨在研究开发出一个智能化的搜索软件,自动的在网络中的网页上爬行,进行信息的发现和抽取,建立本地的索引数据库,向用户提供查询服务。垂直搜索引擎是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎与传统的网页搜索引擎最大的区别就是将网页中的信息进行结构化的提取。使得信息在提取的时候就建立了分类,更好的适应查询需求。 本文从研究和设计的角度对WWW搜索引擎的相关技术作了详细的分析和讨论,论述了目前搜索引擎的国内外发展现状和发展趋势。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出一个基于图书专业的定题搜索器,它是垂直搜索引擎的核心。在文章的主体部分,以搜索引擎的设计流程为主线,从HTML页面解析的一般概念入手,结合网页之间的超链接分析(HITS算法),按照搜索引擎系统的要求,采用深度优先的搜索策略设计一个适合中小型网站专业网页信息获取的网络蜘蛛,并给出此网络蜘蛛的爬行算法,使用C++ Builder工具实现程序。另外,为了保证数据库中的信息不重复,还设计了一个专门用于数据查重的程序以保证资源准确。在此基础上采用数据库索引和检索工具Lucene相结合的方法建立索引、为检索结果排序。保证为用户提供更加准确的信息,更好的满足用户的检索要求。这种搜索方法对其他的专业搜索引擎系统的建立具有指导意义。 最后的软件功能测试表明,此Spider程序算法准确、稳定、不会引起本地资源耗尽;它支持按指定站点搜索,按给定Url范围进行搜索的搜索策略。可以完成指定信息的自动搜索和下载。
【学位授予单位】:中国地质大学(北京)
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP393.092;TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 吴建;;基于Lucene的校园网搜索引擎的设计与实现[J];湖南工程学院学报(自然科学版);2012年02期
2 陈财森;王韬;郑伟;陈建泗;;基于搜索引擎调用的主题搜索设计与实现[J];计算机工程与设计;2008年21期
中国硕士学位论文全文数据库 前10条
1 袁黎明;双边网络视角下搜索引擎平台的隔离机制演进[D];北京交通大学;2011年
2 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
3 刘庆龙;主题搜索引擎的研究与实现[D];云南大学;2011年
4 余舟华;基于陷阱的spider检测评价模型研究[D];沈阳航空航天大学;2011年
5 白玉昭;垂直搜索引擎的研究与实现[D];江南大学;2012年
6 薛涛;网络服务智能监测平台的研究[D];北京交通大学;2008年
7 尹江;基于文档分类及超链接优选策略主题蜘蛛的研究与实现[D];西南交通大学;2008年
8 李晗;面向石油的主题搜索引擎研究[D];中国石油大学;2008年
9 崔金国;基于蚁群算法的主题爬虫技术研究与实现[D];成都理工大学;2010年
10 刘大伸;垂直搜索引擎技术的研究及实现[D];东北大学;2008年
【参考文献】
中国期刊全文数据库 前9条
1 林亚平,李彦,童调生,尹锋;汉语自动分词中的神经网络技术研究[J];湖南大学学报(自然科学版);1997年06期
2 赫枫龄,左万利;用有向图法解决网页爬行中循环链接问题[J];吉林大学学报(理学版);2004年03期
3 康平波,田永鸿,黄铁军;智能化网页资源收集工具的设计与实现[J];计算机工程;2004年04期
4 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
5 马彪,李恒;搜索引擎的性能评价[J];新世纪图书馆;2003年06期
6 李志蜀,李果;中文搜索引擎的原理剖析及开发实现技术[J];计算机应用研究;2001年11期
7 徐群岭;搜索引擎的定性、定量评价研究与合理选择[J];情报杂志;2003年03期
8 陈旭春 ,赵明生;分布式多搜索引擎系统的研究与实现[J];微计算机信息;2005年20期
9 洪光宗,王皓;搜索引擎Robot技术实现的原理分析[J];现代图书情报技术;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 孙英娟;蒲东兵;孙英慧;李春宜;周春光;;邮件过滤Agent的设计[J];吉林大学学报(信息科学版);2008年06期
4 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
5 何嘉;陈琳;;基于神经网络汉语分词模型的优化[J];成都信息工程学院学报;2006年06期
6 李明杰;;特征抽取方法在网页分类中的应用[J];常熟理工学院学报;2005年04期
7 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
8 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
9 梁晓弘;杨文安;;分词技术在信息处理中的研究综述[J];电脑知识与技术(学术交流);2007年22期
10 谢峰;刘洪星;;基于Lucene的Web站内搜索引擎的研究[J];电脑知识与技术;2008年04期
中国重要会议论文全文数据库 前1条
1 曹红;袁津生;;多领域主题搜索引擎研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
中国博士学位论文全文数据库 前7条
1 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
2 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
3 金燕;WWW信息导航机制研究[D];武汉大学;2005年
4 刘甲学;超媒体信息空间智能导航理论与实证研究[D];吉林大学;2006年
5 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
6 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
7 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
3 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
4 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
5 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
6 惠国宝;基于统计和语义分析的分词及在产品设计中的应用[D];西安电子科技大学;2011年
7 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
8 杜佳伦;面向用户体验需求的垂直搜索引擎的研究[D];吉林大学;2011年
9 李伟;搜索引擎核心词提取系统设计与实现[D];北京交通大学;2011年
10 李珏伶;搜索引擎网页相关性评估方法设计及其在rank模型上的应用[D];北京交通大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
3 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
4 高波,眭莉;基于粗糙集的网页训练样本集的分类属性的选择[J];常州工学院学报;2004年02期
5 林炜,蔺永华;HTTP协议及其发展[J];电脑学习;1999年01期
6 李雅丽;李然;;DNS在网络中的应用[J];电脑知识与技术(学术交流);2007年09期
7 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
8 ;中国互联网络域名管理办法[J];电力信息化;2005年01期
9 尹伟静;;基于用户行为的搜索引擎营销策略研究[J];电子商务;2011年01期
10 黄欣沂;张福泰;伍玮;;一种基于身份的环签密方案[J];电子学报;2006年02期
中国重要会议论文全文数据库 前1条
1 ;中文信息处理重大成果汇报展方正集团展示内容介绍[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国博士学位论文全文数据库 前6条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 张彰;数字签名和认证加密若干问题研究[D];西安电子科技大学;2005年
3 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
4 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
5 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
6 王岚;网络外部性市场中的技术创新和竞争策略研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年
2 陈小宁;Web信息资源获取技术的研究与实现[D];暨南大学;2001年
3 徐永红;基于专题信息服务的智能搜索引擎技术研究[D];国防科学技术大学;2004年
4 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
5 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
6 姚开鹏;敏捷开发过程在企业应用中的研究与实践[D];武汉理工大学;2005年
7 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
8 赵立刚;搜索引擎的研究与设计[D];吉林大学;2005年
9 孙猛;基于分类语义的搜索引擎中若干关键技术的研究与实现[D];东北大学;2005年
10 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
【二级引证文献】
中国期刊全文数据库 前2条
1 张春菊;张雪英;朱少楠;徐希涛;;基于网络爬虫的地名数据库维护方法[J];地球信息科学学报;2011年04期
2 芮文艳;;基于Lucene的web搜索引擎研究[J];信息与电脑(理论版);2012年10期
中国硕士学位论文全文数据库 前10条
1 李涛;校园网信息安全报警系统的设计与实践[D];吉林农业大学;2011年
2 赵思佳;基于规则引擎的个性化网页爬虫研究[D];中南大学;2010年
3 叶海;分布式主题搜索引擎的研究与实现[D];华南理工大学;2011年
4 陈永彬;基于聚焦爬虫技术的教学资源搜集与自动整理方法研究[D];东北师范大学;2011年
5 王平泉;基于Cacti的园区网监测系统的应用研究与实现[D];内蒙古工业大学;2009年
6 陈丛丛;主题爬虫搜索策略研究[D];山东大学;2009年
7 程芳;支持主题学习的网络资源搜索系统设计与实现[D];华东师范大学;2010年
8 林碧霞;基于领域本体的主题爬虫研究及实现[D];西南交通大学;2010年
9 刘鹏鹏;面向患者需求的医学搜索引擎的研究与实现[D];浙江大学;2010年
10 董晨曦;基于网站内容框架的聚焦爬虫算法的优化和实现[D];北京交通大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 储荷婷;国际互联网检索工具:特点、比较和发展方向[J];大学图书馆学报;1997年03期
2 刘雁书,方平;网络信息影响力评价方法[J];高校图书馆工作;2002年02期
3 赫枫龄,陶文学,李凯,周力,左万利;新一代网络搜索引擎系统CHINA_VIVI的实现[J];吉林大学学报(理学版);2003年02期
4 王亭,赵轶群,秦耕;WebLight──一个集文档管理的综合搜索引擎[J];计算机应用研究;2000年01期
5 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
6 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
7 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
8 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
9 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期
10 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
【相似文献】
中国期刊全文数据库 前10条
1 曹晓声;乔杰华;;网络数据的挖掘[J];辽宁工程技术大学学报;2006年S1期
2 李国锋;李春伟;;网络搜索引擎技术探析[J];廊坊师范学院学报;2005年04期
3 刘辉林;郭来德;刘兰哲;王光兴;;中文农业主题搜索引擎的设计与实现[J];郑州大学学报(理学版);2007年02期
4 云健;王春霞;;搜索引擎技术综述[J];河西学院学报;2008年02期
5 宋春阳;金可音;;Web搜索引擎技术综述[J];现代计算机(专业版);2008年05期
6 郑志材;张晶;;基于JAVA的网络蜘蛛的设计与实现[J];硅谷;2009年14期
7 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
8 雷丽秀;;互联网搜索引擎技术及展望[J];科技信息(学术研究);2008年20期
9 武晓娟;;基于网站的搜索引擎研究[J];大连海事大学学报;2008年S1期
10 郑泳;;基于广度优先搜索的网络蜘蛛设计[J];软件导刊;2010年07期
中国重要会议论文全文数据库 前10条
1 李贺华;付鹤岗;;多Agent Web信息检索应用研究[A];2008年计算机应用技术交流会论文集[C];2008年
2 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
3 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
4 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
8 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
10 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 王德吉;复杂环境下自适应智能决策支持系统研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
2 叶昭晖;网络信息雷达系统的研究与设计[D];国防科学技术大学;2005年
3 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
4 任严;基于网络视频业务的搜索引擎的设计与实现[D];北京交通大学;2008年
5 胡晓翠;站点搜索引擎的研究与实现[D];武汉科技大学;2009年
6 张维维;搜索引擎的研究与实现[D];长春理工大学;2008年
7 赵钦;并行爬行器的架构与优化策略[D];北京工业大学;2006年
8 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
9 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
10 郭谢;基于Web Community识别的专业搜索引擎研究[D];浙江大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026