收藏本站
《山东大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

主题爬虫搜索策略研究

陈丛丛  
【摘要】: 随着Web多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供数据更全面精确、时间复杂度更低的因特网搜索服务。 在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web链接信息抓取。 首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的准确性、重要性。 其次,作为主题网络蜘蛛搜索策略的核心部分,本文对主题信息的表示和主题相关性判断算法做了详细介绍。对于网页的主题相关性判别,使用目前较为常用的向量空间模型进行判别。 再次,本文提出了HITS改进算法Topic-HITS,把主题特征加入到HITS算法中,网页的链接结构从主题这个更细化的粒度进行链接分析,针对每一个页面,引入主题权威值向量,并进一步讨论了网站级别的权威值和中心值向量计算公式。 最后,为了提高网络爬虫的自适应性,本文针对传统网络爬虫存在的价值评价标准单一的问题,提出了一种基于综合价值的综合爬行策略,此策略根据不同的搜索阶段选择采用符合实际情况的最优搜索策略。本研究采用改进的HITS算法和自行设计的综合爬行策略相结合,实现了一个基于多种搜索策略的主题搜索引擎网络爬虫系统原型。实验结果表明,在此系统上不仅能够准确、自动地爬行到主题相关网页,而且还可节约网络带宽,具有良好的稳定性。
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
2 张春菊;张雪英;朱少楠;徐希涛;;基于网络爬虫的地名数据库维护方法[J];地球信息科学学报;2011年04期
中国硕士学位论文全文数据库 前10条
1 高峰;基于兴趣分类的用户行为分析系统的研究[D];山东大学;2010年
2 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
3 卢凡;基于领域本体的主题爬虫系统研究与实现[D];电子科技大学;2011年
4 丁文;垂直搜索引擎在网络购物系统中的研究与应用[D];中国海洋大学;2011年
5 林伟;垂直搜索引擎关键技术的研究与实现[D];华南理工大学;2011年
6 孙轩;主题搜索引擎的关键技术研究与实现[D];武汉理工大学;2010年
7 黄胜根;智能垂直搜索引擎的研究与设计[D];重庆大学;2010年
8 周岳;基于兴趣分类的用户行为分析系统的研究与设计[D];北京邮电大学;2010年
9 张睿涵;基于RSS的聚焦网络爬虫在高校网站群中的研究[D];南昌大学;2012年
10 姚欲东;基于SaaS模式的Web安全集群检测工具的需求分析与架构设计[D];北京邮电大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 钱功伟;倪林;曹荣;;基于网页链接和内容分析的改进PageRank算法[J];计算机工程与应用;2007年21期
2 王硕;尤枫;山岚;赵恒永;;一种适用于专业搜索引擎的中文分词系统研究[J];计算机工程与应用;2008年19期
3 吴明礼,施水才;一种结合超链接分析的搜索引擎排序方法[J];计算机工程;2004年15期
4 李昕,朱永胜,武港山;Web结构分析算法HITS的改进及应用[J];计算机工程;2005年06期
5 王津涛,兰皓;面向主题元搜索引擎的设计与实现[J];计算机工程;2005年07期
6 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
7 吴涛;张毛迪;陈传波;;一种改进的统计与后串最大匹配的中文分词算法研究[J];计算机工程与科学;2008年08期
8 汪涛,樊孝忠;链接分析对主题爬虫的改进[J];计算机应用;2004年S2期
9 潘国清;;VSM中用语片为特征项计算文本相似度[J];计算机与数字工程;2007年10期
10 连浩;刘悦;许洪波;程学旗;;改进的基于布尔模型的网页查重算法[J];计算机应用研究;2007年02期
【共引文献】
中国期刊全文数据库 前10条
1 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
2 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期
3 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期
4 徐朝军;;基于主题搜索的通用教学资源共享平台设计[J];中国远程教育;2010年03期
5 杨仁广;孟祥增;;网络多媒体教学资源主题搜索研究[J];电化教育研究;2009年05期
6 李园伟;;面向高校主题搜索引擎的的爬行器设计[J];电脑知识与技术;2011年16期
7 张春菊;张雪英;朱少楠;徐希涛;;基于网络爬虫的地名数据库维护方法[J];地球信息科学学报;2011年04期
8 许金玲;陈旭翔;赵少娟;丁必蛟;;基于信令分析的客户网络标签体系搭建[J];电信快报;2012年05期
9 李江;殷之明;;链接分析研究综述[J];大学图书馆学报;2008年02期
10 李建廷;;元搜索引擎中搜索结果的采集与处理[J];电子科技;2010年06期
中国重要会议论文全文数据库 前5条
1 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 黄明初;陆旭安;潘雄伟;钟威;;中文分词技术在档案智能搜索中的应用[A];广西计算机学会2010年学术年会论文集[C];2010年
3 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
4 ;The Research of the Maximum Length n-grams Priority Chinese Word Segmentation Method Based on Corpus Type Frequency Information[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
5 单铁城;张安妮;马德辉;;基于爬虫改进算法的个性化搜索引擎应用研究[A];战略性新兴产业与科技支撑——2012年山东省科协学术年会论文集[C];2012年
中国博士学位论文全文数据库 前7条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
3 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 邱奇志;基于本体的学习对象发现机制的研究与应用[D];武汉理工大学;2009年
6 姜怡;基于文本互文性分析计算的典籍翻译研究[D];大连理工大学;2010年
7 徐毅;粗细粒度双知识网映射的零部件设计重用方法[D];大连理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 刘文辉;基于链接结构的网页排序算法研究[D];哈尔滨工程大学;2010年
4 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
5 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
6 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
7 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
8 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
9 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
10 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 张保钢;杨伯钢;孔俊元;;北京市地名数据库的维护更新[J];北京测绘;2010年03期
2 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
3 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
4 狄琳,欧阳宏斌;全国1∶25万地名数据库的设计与建立[J];测绘通报;2001年10期
5 陈春华;;1∶5万地名数据库到1∶1万地名数据库转换的研究与开发[J];测绘通报;2006年05期
6 吴祐昕;顺风;;网络搜索引擎的发展趋势分析[J];当代传播;2007年03期
7 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
8 李金良;张雪英;樊晓春;;汉语地名时空信息的一体化表达[J];地理与地理信息科学;2010年06期
9 唐洁;;VC++多线程开发技术[J];电脑编程技巧与维护;2007年07期
10 黄继伟;;Web数据库安全机制的研究和探讨[J];电脑编程技巧与维护;2009年04期
中国重要会议论文全文数据库 前1条
1 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
中国博士学位论文全文数据库 前5条
1 魏玖长;危机事件社会影响的分析与评估研究[D];中国科学技术大学;2006年
2 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
3 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
4 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
5 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
2 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
3 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
4 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
5 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
6 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
7 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
8 王丫;网络新闻流中热点事件识别与跟踪算法的改进与验证[D];燕山大学;2007年
9 姚忠存;锚文本增量主题爬行[D];吉林大学;2007年
10 谢冬松;基于Web的主题搜索应用技术研究[D];黑龙江大学;2007年
【二级引证文献】
中国期刊全文数据库 前6条
1 张雪英;朱少楠;张春菊;徐希涛;杜超利;;基于XML Schema的多源地名词典集成方法[J];地理与地理信息科学;2012年02期
2 赵靖;潘志舟;梅芳婷;程振;钱吕见;;多中文搜索引擎的联合网络爬虫及LUCENCE实现[J];安阳师范学院学报;2012年05期
3 夏华林;张仰森;;基于规则与统计的Web突发事件新闻多层次分类[J];计算机应用;2012年02期
4 刘丽杰;李盼池;张强;;基于量子行为进化算法的聚焦爬虫搜索策略[J];计算机应用研究;2012年11期
5 王娟;吴金鹏;;网络爬虫的设计与实现[J];软件导刊;2012年04期
6 郭小清;任守纲;谢忠红;;驱动级本地用户行为监控系统的研究与实现[J];现代图书情报技术;2012年10期
中国硕士学位论文全文数据库 前10条
1 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年
2 叶海;分布式主题搜索引擎的研究与实现[D];华南理工大学;2011年
3 郑小波;基于语义的主题搜索引擎研究[D];安徽大学;2011年
4 姜琨;主题搜索引擎中的爬取技术研究[D];国防科学技术大学;2011年
5 史丛;网络搜索引擎的相关技术研究[D];山东科技大学;2011年
6 林伟;垂直搜索引擎关键技术的研究与实现[D];华南理工大学;2011年
7 徐娟秀;基于HTTP协议的大容量数据高速采集与分析系统的设计与实现[D];北京邮电大学;2012年
8 张倩;弓形虫Rhomboid基因重组卡介苗的研制[D];吉林大学;2012年
9 杜杰;基于校园网海量访问日志的用户行为分析[D];大连海事大学;2012年
10 付欣;基于聚焦爬虫技术的Web本体采集系统的设计与实现[D];吉林大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 于海龙,邬伦,林星,秦适,张铭;基于WebService的小流域地貌演化问题计算设计与实现[J];北京大学学报(自然科学版);2005年06期
2 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
3 于海龙;邬伦;刘瑜;李大军;刘丽萍;;基于Web Services的GIS与应用模型集成研究[J];测绘学报;2006年02期
4 于海龙,邬伦;OpenGIS参考模型ORM及地理信息服务应用模式[J];地理与地理信息科学;2004年05期
5 魏晓宁;;基于隐马尔科夫模型的中文分词研究[J];电脑知识与技术(学术交流);2007年21期
6 李名智;中文搜索引擎:现状、问题及对策[J];大学图书馆学报;1998年06期
7 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
8 彭绪富,邹友宽,邓荣华;INTERNET搜索引擎探解[J];高等函授学报(自然科学版);2001年01期
9 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期
10 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期
中国博士学位论文全文数据库 前1条
1 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前5条
1 钟敏娟;基于Web的文本信息检索算法研究[D];湖南大学;2004年
2 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
3 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
4 陈学进;Web结构挖掘研究[D];合肥工业大学;2006年
5 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
【相似文献】
中国期刊全文数据库 前10条
1 刘兵;;基于JavaScript等多链接分析的主题爬虫设计实现[J];许昌学院学报;2010年02期
2 郑凯;;基于动态评价URL链接结构的主题爬行策略[J];福建电脑;2010年02期
3 钱功伟;倪林;曹荣;;基于网页链接和内容分析的改进PageRank算法[J];计算机工程与应用;2007年21期
4 丁婕;;管窥“网络蜘蛛”之网上爬行[J];技术与市场;2008年08期
5 王兵;许少华;张兴旺;;基于改进PageRank算法的管道专业搜索引擎系统设计与实现[J];大庆石油学院学报;2007年01期
6 陈星;;基于Context Graphs的主题爬虫的研究与实现[J];计算机工程与设计;2011年03期
7 陈太洋;;我国大学图书馆网站链接的实证分析——以中国“211工程”高校为例[J];图书馆杂志;2007年03期
8 赵善明;崔翔;杨书涛;;主题搜索引擎搜索浅析[J];才智;2008年13期
9 周涛;陈向东;;基于链接分析的网站评价[J];广西教育学院学报;2008年04期
10 刘朋;林泓;高德威;;基于内容和链接分析的主题爬虫策略[J];计算机与数字工程;2009年01期
中国重要会议论文全文数据库 前10条
1 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
2 杨晶;;社区服务政策的内容分析[A];贵州省社会学学会“民族、区域、社会发展研讨会”暨2002年学术年会论文集[C];2002年
3 汪秉宏;;网络交通流中的路由搜索策略及相变[A];第四届全国网络科学学术论坛暨研究生暑期学校论文集[C];2008年
4 高章峰;肖虹;聂舒;王智宇;林燕惠;;2010年我国主要门户网站对自杀报道的内容分析[A];全国第九届危机干预及自杀预防学术年会论文汇编(二)[C];2011年
5 何伟;李庆忠;郑永清;崔立真;;社区云计算环境中的一种数据分布及搜索策略[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
6 王典乐;任照峰;牟灵泉;;基于并行计算和网络应用的暖通空调CAD搜索策略应用探讨[A];全国暖通空调制冷2002年学术年会论文集[C];2002年
7 楼劼;叶耀荣;钟建安;;广播广告中的性别角色定型的实证研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
8 宋丹;林鸿飞;杨志豪;;一种利用链接分析的Web话题跟踪方法[A];第三届学生计算语言学研讨会论文集[C];2006年
9 李强;许丹;高文珺;;心理咨询师国家职业资格考试报考者个人经历初探[A];第十一届全国心理学学术会议论文摘要集[C];2007年
10 张艳;伍新春;;阅读策略教学和内容分析对分享阅读教学效果的影响[A];第十一届全国心理学学术会议论文摘要集[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 宋全政;真诚守护每一位师生的安全[N];中国教育报;2007年
2 白向忠本报记者 王建梁;一路追着环保走[N];科技日报;2007年
3 本报记者 李德辉 通讯员 王静 实习生 王远;在产学研的广阔海洋纵横驰骋[N];联合日报;2006年
4 记者 宋全政通讯员 周大白 张果红;学生登台讲课 师生田间调研[N];中国教育报;2008年
5 王东;桃李满天下[N];科技日报;2007年
6 本报记者 赵秋丽 通讯员 曹宪忠 冯刚;“文史见长”创优势[N];光明日报;2010年
7 记者 魏海政 宋全政;山东大学泰山学堂多次评价多次流动育英才[N];中国教育报;2010年
8 记者 孙明河魏东;“不辜负人民嘱托,坚决完成任务!”[N];科技日报;2008年
9 特约记者  鲁晓懋;老山东大学:东方瑞士的人文之脉[N];中国房地产报;2006年
10 记者  赵秋丽 通讯员  王秋生;山东大学:推进按大类招生,实施个性化培养[N];光明日报;2006年
中国博士学位论文全文数据库 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 张崇礼;楚简释读[D];山东大学;2008年
3 蒋卫东;内皮细胞特异性分泌分子EGF-like domain 7(EGFL7)的初步研究[D];山东大学;2006年
4 李锋;骨髓间充质干细胞移植促进心肌梗死心肌VEGF表达及血管生成的实验研究[D];山东大学;2006年
5 纪丽真;明清山东盐业研究[D];山东大学;2006年
6 刘志方;幽门螺杆菌与胃粘膜上皮细胞相互作用关系的研究[D];山东大学;2006年
7 叶育鑫;语义Web下的知识搜索及其核心技术[D];吉林大学;2010年
8 舒强;类风湿关节炎、强直性脊柱炎和骨关节炎滑膜成纤维样细胞增殖与分化的体外研究[D];山东大学;2006年
9 冯亚波;氯通道在癫痫发病机制中作用的研究[D];山东大学;2006年
10 王华丽;不同抗原负载人树突状细胞诱导特异性抗宫颈癌效应的实验研究[D];山东大学;2006年
中国硕士学位论文全文数据库 前10条
1 陈丛丛;主题爬虫搜索策略研究[D];山东大学;2009年
2 王攀;主题搜索引擎的设计与实现[D];华中科技大学;2007年
3 丰帆;我国媒体对“农民工”报道的内容分析与话语探讨[D];暨南大学;2005年
4 龚萍;英语课本中的性别偏见[D];华中师范大学;2006年
5 韩磊;新闻预定服务系统[D];山东大学;2007年
6 刘朋;基于Lucene的垂直搜索引擎关键技术的研究应用[D];武汉理工大学;2009年
7 刘振江;基于领域本体和相似概念背景图的主题爬行策略研究[D];西华大学;2012年
8 张琦;《羊城晚报》移动“全球通”广告内容分析[D];厦门大学;2008年
9 牛晶晶;动漫中的暴力内容及其对初中生攻击性的影响[D];河南大学;2009年
10 何英菲;高中历史教科书中的异国形象[D];华东师范大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026