收藏本站
《江西财经大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

网站聚焦爬虫研究

刘洁清  
【摘要】:近年来,随着互联网的快速发展,网络信息呈指数级的增长,这种信息量的飞速增长对通用网络爬虫和搜索引擎呈现了空前的挑战,越来越多的人希望能够快速且有效地找到自己所需要的信息。聚焦爬虫是一种面向主题的信息搜集系统,可以根据用户需要从互联网上自动搜集到主题相关信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。 传统的聚焦爬虫抓取的目标是与某一特定主题内容相关的网页,而在有些应用中,如网络目录,更多的是给用户提供主题相关网站。随着互联网信息的日益增多,目前靠人工来维护的网络目录越来越显得低效和不可行。为了实现具有自动维护功能的网络目录,将抓取目标锁定为主题网站的网站聚焦爬虫应运而生。 网站聚焦爬虫是在现有聚焦爬虫的基础上加入网站选取和分类机制,从用户提供的种子网站开始,以Best-first原则获取最佳候选网站并开始新一轮的爬行分类。本文进行了面向中文网站的网站聚焦爬虫的设计与实现,详细介绍了其各部分的功能和设计原理。实验表明该爬虫能有效的获取主题网站,为实现自动网络目录提供了一种解决方案。 与传统网站聚集爬虫不同的是,本文介绍的网站聚集爬虫引入了一种改进的外部爬行策略,即在传统外部爬行策略只考虑平均跨站链接权重的基础上引入网站的跨站链接数以进行候选网站的选取。实验结果表明,改进外部爬行策略后的网站聚集爬虫能够优先访问候选网站队列中的权威主题网站,并能进一步提高获取主题网站的准确率。
【学位授予单位】:江西财经大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP393.092

【引证文献】
中国重要会议论文全文数据库 前1条
1 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
中国硕士学位论文全文数据库 前6条
1 刁维康;面向药品安全领域的Web信息采集研究与应用[D];重庆大学;2010年
2 何丹丹;社交网络视频分享测量平台的设计与实现[D];华中科技大学;2011年
3 方利伟;个性化在线答疑系统的研究与实现[D];浙江师范大学;2007年
4 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
5 薛涛;网络服务智能监测平台的研究[D];北京交通大学;2008年
6 田董涛;微博客数据的获取与分析方法研究[D];北京交通大学;2012年
【参考文献】
中国期刊全文数据库 前5条
1 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
2 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期
3 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期
4 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
5 马亮,陈群秀,王俊,徐国伟;智能Web中文主题信息收集系统IRobot的设计[J];中文信息学报;2002年05期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
5 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期
6 付涛;;基于背景的Web广泛主题发现方法[J];电脑学习;2010年02期
7 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期
8 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
9 高灵霞;;基于主题爬虫的个性化搜索引擎技术分析[J];电脑知识与技术;2009年32期
10 吴聪聪;赵建立;;基于本体的主题爬虫的研究[J];电脑知识与技术;2011年03期
中国重要会议论文全文数据库 前4条
1 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
2 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 梁循;杨健;陈华;曾月卿;;互联网金融信息搜索[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
中国博士学位论文全文数据库 前9条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
5 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
6 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
7 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
8 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
9 杨志;基于本体的语义互操作研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 董慧欣;基于Web技术的投标文件自动生成系统的研究与实现[D];中国海洋大学;2008年
5 陈冰泉;面向农产品信息的主题搜索引擎与信息推荐[D];华南理工大学;2010年
6 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
7 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
8 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
9 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
10 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 张帆;林建;;智能搜索引擎信息过滤机制研究[J];图书与情报;2007年04期
3 李志辉;智能答疑系统中概念词典的设计与应用[J];重庆科技学院学报;2005年02期
4 彭喜化;黄睿;;基于向量空间模型的多关键字检索技术[J];重庆职业技术学院学报;2006年03期
5 柳泉波,黄荣怀,何克抗;智能答疑系统的设计与实现[J];中国远程教育;2000年08期
6 程建钢,张国平,韩锡斌,马勃民;基于Web的远程答疑系统[J];电化教育研究;2002年07期
7 刘文娟;袁文芳;;校内网的SNS人际传播特征分析[J];东南传播;2009年05期
8 刘丽清;;微博虽“微”足值道尔——微博特性之浅析[J];东南传播;2009年11期
9 李春艳;徐保民;;Web数据抽取技术研究初探[J];电脑知识与技术;2009年35期
10 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
中国博士学位论文全文数据库 前1条
1 赵鹏;复杂网络与互联网个性化信息服务的研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 单林娜;基于.NET的网上书店的设计与实现[D];重庆大学;2005年
2 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
3 谭思亮;聚焦爬行系统的设计—算法视角[D];中国科学院研究生院(成都计算机应用研究所);2006年
4 李志辉;基于专业知网的中文智能答疑系统模型研究[D];西南大学;2006年
5 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
6 林乐彬;Inar网络爬虫的设计与实现[D];哈尔滨工业大学;2006年
7 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年
8 王照亮;基于XML的数据抽取的研究与应用[D];大连海事大学;2007年
9 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
10 叶勤勇;基于URL规则的聚焦爬虫及其应用[D];浙江大学;2007年
【二级引证文献】
中国期刊全文数据库 前1条
1 吴兰英;;基于J2EE的在线答疑系统设计与实现[J];科技信息;2010年27期
中国硕士学位论文全文数据库 前7条
1 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
2 李涛;校园网信息安全报警系统的设计与实践[D];吉林农业大学;2011年
3 何丹丹;社交网络视频分享测量平台的设计与实现[D];华中科技大学;2011年
4 严鸿毅;基于聚焦爬虫的网上药品信息监测系统[D];浙江工业大学;2011年
5 王平泉;基于Cacti的园区网监测系统的应用研究与实现[D];内蒙古工业大学;2009年
6 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
7 杨洁;基于渗透测试的分布式跨站漏洞挖掘系统的设计与实现[D];西安电子科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前2条
1 韩彬斌,王培康;Web网页识别算法研究[J];情报学报;2001年01期
2 曹军;Google的PageRank技术剖析[J];情报杂志;2002年10期
【相似文献】
中国期刊全文数据库 前10条
1 吕争;陈侃;;一种基于噪音清除的网页削重算法[J];信阳师范学院学报(自然科学版);2007年01期
2 陈永平;王浩;;WEB个性化服务中的协作过滤技术的研究[J];福建电脑;2007年08期
3 吕林霞;张明新;;基于Web挖掘的专业文本特征提取方法研究[J];兰州石化职业技术学院学报;2007年03期
4 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
5 左鹏,徐和龙,于国庆;Web挖掘在FDSS中的应用探讨[J];计算机与现代化;2001年05期
6 李重周;杨君锐;;关联规则挖掘技术在盲用软件中的应用研究[J];重庆科技学院学报(自然科学版);2007年03期
7 汪全莉;陈代春;;Web数据挖掘在网络教育中的应用[J];中国科技资源导刊;2008年02期
8 陈建华,包煊;Web挖掘系统的设计与实现[J];计算机工程;2002年08期
9 易高翔,程耕国;数据挖掘在Web智能化中应用研究[J];计算机工程与设计;2005年01期
10 陈振,郑诚,朱小栋;一种基于关联分类方法的Web用户兴趣预测[J];微机发展;2005年05期
中国重要会议论文全文数据库 前10条
1 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
2 董燕;;Web挖掘对电子商务网站建设的影响[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
3 易虹;许德刚;;Web数据挖掘的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
5 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 吴珊;杨桦;;基于日志挖掘的Web预取模型[A];2006年电气工程教育专业委员会年会论文集[C];2006年
7 闫泼;马军;陈竹敏;;面向主题的网页排序算法研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 习慧丹;;Web日志挖掘探析[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
10 袁冠;夏士雄;张磊;李月娥;肖经验;;基于兴趣度的Web用户聚类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
中国重要报纸全文数据库 前10条
1 本报记者  朱薇;抄袭网页基本布局风格也侵权[N];经济参考报;2006年
2 朱薇;重庆:抄袭网页基本布局风格,也是侵权[N];新华每日电讯;2006年
3 ;美国开发出网页标注新技术[N];人民邮电;2006年
4 本报记者  陆琼琼;Mofile试验播客类网站盈利新途径[N];上海证券报;2006年
5 山东 姜元学;用IE保存网页内容[N];电脑报;2002年
6 ;如何将网页保存下来?[N];南京日报;2006年
7 重庆 超人;网页版块也可上下移动[N];电脑报;2008年
8 张琰珺;网页监测应该“动”起来[N];中国计算机报;2006年
9 实习生 马霞;无障碍阅读系统:让互联网不再有“盲区”[N];科技日报;2011年
10 马文方;搜索引擎考验创意[N];中国计算机报;2006年
中国博士学位论文全文数据库 前10条
1 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
3 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
4 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
5 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
6 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年
7 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
8 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
9 孙舒杨;统计关系学习的若干问题研究[D];吉林大学;2006年
10 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年
2 詹晶晶;基于WEB挖掘的网络蜘蛛的研究与实现[D];厦门大学;2007年
3 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年
4 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年
5 黄荣兵;RBF神经网络在Web挖掘中的应用研究[D];太原理工大学;2004年
6 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
7 丁一;基于Web挖掘的个性化推荐服务研究[D];华中科技大学;2004年
8 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年
9 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
10 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026