收藏本站
《浙江大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

主题搜索引擎中网络蜘蛛搜索策略研究

陈杰  
【摘要】:随着Web上多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务。 在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。而Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web信息提取,以保证信息的实时性和有效性。 该文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上,提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。 作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中,引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性剪枝算法—EPR算法。而对于网页的主题相关性判别,则使用目前较为常用的向量空间模型进行判别。 主题搜索引擎对数据实时性的要求要远远高于通用搜索引擎,因而,增量Web信息提取算法也是主题网络蜘蛛搜索策略的重点。该文提出了一种全新的基于索引页的增量Web信息提取算法,能够有效地发现Web上新增加的网页。 实验结果表明该文的工作是相当有效的,尤其是提出的EPR算法和基于索引页的增量Web信息提取算法,具有相当的创新性和实际应用价值。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前4条
1 陈财森;王韬;郑伟;陈建泗;;基于搜索引擎调用的主题搜索设计与实现[J];计算机工程与设计;2008年21期
2 徐卫军;李宝敏;;基于本体的主动元数据挖掘系统研究[J];计算机技术与发展;2012年03期
3 姜博;;网页PageRank算法分析及主题相关性的改进策略[J];中国科技信息;2010年22期
4 海涛;郑玲;江娟;;垂直搜索引擎中数据采集的主题相关性算法研究[J];中国电力教育;2007年S1期
中国硕士学位论文全文数据库 前10条
1 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
2 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
3 连惠杰;基于主题的教育信息定向采集系统[D];南京理工大学;2011年
4 刘庆龙;主题搜索引擎的研究与实现[D];云南大学;2011年
5 贾春鑫;面向主题的双约束网页采集方法的研究和实现[D];上海交通大学;2011年
6 姜琨;主题搜索引擎中的爬取技术研究[D];国防科学技术大学;2011年
7 孟骁;基于语义网络的智能搜索引擎研究[D];东北师范大学;2011年
8 朱道敏;基于BP网络的元搜索引擎研究[D];东北师范大学;2011年
9 余舟华;基于陷阱的spider检测评价模型研究[D];沈阳航空航天大学;2011年
10 程锦;面向网络化制造资源的垂直搜索技术研究与应用[D];贵州大学;2007年
【参考文献】
中国期刊全文数据库 前1条
1 王晓宇,周傲英;万维网的链接结构分析及其应用综述[J];软件学报;2003年10期
【共引文献】
中国期刊全文数据库 前10条
1 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
2 周翔;;基于Websphinx网络爬虫的研究与改进[J];电脑知识与技术;2008年28期
3 叶琳莉;林嵩凯;;基于Web结构挖掘算法的网站构建[J];电脑知识与技术;2008年34期
4 王梅;;搜索引擎中的web链接算法研究与改进[J];电脑知识与技术;2009年24期
5 高玉良;张济强;白瑶;;基于Lucene的多索引搜索的研究与应用[J];电脑知识与技术;2012年07期
6 谭涛;;高效的动态脚本网页关联性挖掘算法研究[J];电脑知识与技术;2012年13期
7 李江;殷之明;;链接分析研究综述[J];大学图书馆学报;2008年02期
8 王艳辉,吴斌,王柏;电信社群网络静态几何性质分析研究[J];复杂系统与复杂性科学;2005年02期
9 段晓东;王存睿;刘向东;张庆灵;;基于网络权重的多社团网络结构划分算法[J];复杂系统与复杂性科学;2009年03期
10 谭丽华;董毅明;李林红;;互联网群体智能的涌现[J];管理学报;2010年12期
中国重要会议论文全文数据库 前4条
1 张冉;卡米力毛依丁;;基于论文参考文献引用分析的专业文献查询库[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
2 杨宇航;赵铁军;郑德权;于浩;;基于链接分析的重要Blog信息源发现[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 张志强;梁婷婷;谢晓芹;;一种基于用户标记的搜索结果排序算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国硕士学位论文全文数据库 前10条
1 王芳;基于EVS相似度的邮件社区划分方法研究[D];郑州大学;2010年
2 张士军;基于随机游走的网页协同排序算法研究[D];大连理工大学;2010年
3 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
4 杨阳;复杂网络社团划分算法的研究与实现[D];西安电子科技大学;2010年
5 刘嘉;Web结构挖掘研究[D];西安电子科技大学;2009年
6 张韦;基于语义的Web主题提取的研究[D];湖北工业大学;2011年
7 邓丹君;基于Lucene的垂直搜索引擎关键技术研究[D];武汉理工大学;2011年
8 周新;情境感知的物联网信息检索技术研究[D];大连海事大学;2011年
9 李莹;基于最大流与页面相似度值的Web结构挖掘研究[D];陕西师范大学;2011年
10 马丽;融入语义相似度的HITS算法研究及实现[D];南京理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
3 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
4 戴先宇,王明文,吴水秀,张石林;带参数的搜索引擎[J];江西师范大学学报(自然科学版);2002年04期
5 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
6 冀胜利;李波;;基于SVM的中文文本分类算法[J];重庆工学院学报(自然科学版);2008年07期
7 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
8 扎西次仁;《中华大藏经·丹珠尔》藏文对勘本字频统计分析[J];中国藏学;1997年02期
9 陈玉忠,俞士汶;藏文信息处理技术的研究现状与展望[J];中国藏学;2003年04期
10 周炜;;现代化进程中的藏语文信息处理[J];中国藏学;2006年02期
中国重要会议论文全文数据库 前3条
1 于楠;朱靖波;陈文亮;;领域知识库的构建机制[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 戴玉刚;喇秉军;何向真;;WEB环境下藏文信息处理技术[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
3 苗家;马军;陈竹敏;;一种基于HITS算法的blog文摘方法[A];第六届全国信息检索学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前10条
1 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
2 吴代文;基于Lucene的二次全文检索系统设计与实现[D];西安电子科技大学;2009年
3 崔顷顷;基于个性化搜索的系统研究与设计[D];北京交通大学;2011年
4 陈凯;搜索引擎有关排序算法研究[D];武汉理工大学;2011年
5 黄卫平;个性化搜索引擎的研究与实现[D];武汉理工大学;2011年
6 王小森;基于Solr的搜索引擎的设计与实现[D];北京邮电大学;2011年
7 李彦辉;基于用户兴趣的个性化搜索引擎研究[D];山西财经大学;2011年
8 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
9 蔺继国;基于点击数据分析的个性化搜索引擎研究[D];国防科学技术大学;2010年
10 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
【二级引证文献】
中国期刊全文数据库 前7条
1 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期
2 周民;邱雅;王华彬;;网络舆情分析中智能爬虫的设计[J];电脑知识与技术;2011年33期
3 张春菊;张雪英;朱少楠;徐希涛;;基于网络爬虫的地名数据库维护方法[J];地球信息科学学报;2011年04期
4 潘月姣;孟小军;;财经信息专业搜索引擎的设计与实现[J];情报探索;2008年12期
5 季春;姜琴;吴铮悦;;垂直搜索引擎关键技术研究综述[J];情报探索;2012年10期
6 李爱国;王月强;;多线程Web图像搜索器的磁盘I/O缓冲方法[J];郑州大学学报(理学版);2010年01期
7 黄超;李毅;麻荣宽;马建勋;;网页漏洞挖掘系统设计[J];信息网络安全;2012年09期
中国重要会议论文全文数据库 前1条
1 陈诚;李光亚;童庆;;增量爬取技术的策略框架设计[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国硕士学位论文全文数据库 前10条
1 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
2 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
3 戴雪梅;面向购物的聚类搜索引擎的研究与实现[D];北京交通大学;2011年
4 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年
5 刘欢;职位匹配系统的设计与实现[D];华东师范大学;2011年
6 赵思佳;基于规则引擎的个性化网页爬虫研究[D];中南大学;2010年
7 吴娱;网络舆情分析关键技术研究与实现[D];电子科技大学;2011年
8 郎凤举;基于热点网站内容分析的超链接提取研究[D];中国海洋大学;2010年
9 龚真平;基于web文献的数据挖掘研究应用[D];西南交通大学;2011年
10 杨哲;基于Groovy的分布式网络爬虫系统的设计与实现[D];西南交通大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期
2 丁婕;;管窥“网络蜘蛛”之网上爬行[J];技术与市场;2008年08期
3 郑泳;;基于广度优先搜索的网络蜘蛛设计[J];软件导刊;2010年07期
4 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
5 柳婷;;网络蜘蛛的简单设计与研究[J];大众商务;2010年16期
6 宋春阳;金可音;;Web搜索引擎技术综述[J];现代计算机(专业版);2008年05期
7 李国锋;李春伟;;网络搜索引擎技术探析[J];廊坊师范学院学报;2005年04期
8 张海东;;关于对互联网信息采集支持静态页面和动态页面的抓取技术的文献综述[J];科学咨询(决策管理);2007年03期
9 云健;王春霞;;搜索引擎技术综述[J];河西学院学报;2008年02期
10 郑志材;张晶;;基于JAVA的网络蜘蛛的设计与实现[J];硅谷;2009年14期
中国重要会议论文全文数据库 前10条
1 李贺华;付鹤岗;;多Agent Web信息检索应用研究[A];2008年计算机应用技术交流会论文集[C];2008年
2 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
3 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
4 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 张博锋;刘凤;周传飞;邹国兵;;基于P2P的制造资源搜索引擎的研究与实现[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
9 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
10 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
2 李一鑫;搜索排名的红与黑[N];财经时报;2007年
3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
9 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
10 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
中国博士学位论文全文数据库 前10条
1 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 王德吉;复杂环境下自适应智能决策支持系统研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
2 郭谢;基于Web Community识别的专业搜索引擎研究[D];浙江大学;2006年
3 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
4 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
5 任严;基于网络视频业务的搜索引擎的设计与实现[D];北京交通大学;2008年
6 胡晓翠;站点搜索引擎的研究与实现[D];武汉科技大学;2009年
7 张维维;搜索引擎的研究与实现[D];长春理工大学;2008年
8 叶昭晖;网络信息雷达系统的研究与设计[D];国防科学技术大学;2005年
9 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
10 沈坚;一种专题式搜索引擎Spider的设计与实现[D];北京化工大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026