收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于URL规则的聚焦爬虫及其应用

叶勤勇  
【摘要】: 随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们需求的多样化,和对搜索结果质量的要求越来越高,通用搜索引擎在一些专门化的领域已经不能满足人们的要求,于是垂直搜索引擎就应运而生。尽管垂直搜索引擎很多技术与通用搜索引擎很类似,但是还是有很多自己独特的技术,和一些新的需要解决的问题,聚焦爬虫就是其中的一个重点需要解决的问题。 本文首先基于用同一个模板产生的动态网页其内容往往是属于同一个主题的且其URL是非常相似的这个规律,提出了一个基于URL规则的聚焦爬虫(URL Rule Based Focused Crawl,简称UBFC)的算法,即从每个主题网页相关站点中自动学习出代表主题相关网页URL和主题无关网页URL的正则表达式,并用这些正则表达式来指导聚焦爬虫的抓取。接着介绍了UBFC在Nutch系统上的实现和URL正则表达式学习算法。最后我们对UBFC进行了应用和分析,特别是与广度优先搜索爬虫(BFSC)、基本聚焦爬虫(BLFC)的比较分析,表明UBFC在收获率上比后两者有了明显的提高,而且招回率也明显高于BLFC。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张斌;周尔宁;;基于Nutch的分布式纺织垂直搜索引擎研究[J];电脑知识与技术;2009年21期
2 刘金亮;吴芳;孟海江;;智能化垂直搜索系统的构建[J];电脑知识与技术;2010年02期
3 赵德平;刘阳;李鹏;;基于Lucene的房产信息垂直搜索引擎的研究[J];沈阳建筑大学学报(自然科学版);2011年01期
4 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
5 张敏;杜华;;垂直搜索引擎系统的设计与实现[J];情报科学;2011年03期
6 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
7 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
8 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
9 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
10 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期
11 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
12 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
13 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期
14 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期
15 宿建光;;指点通:移动垂直搜索的创新者[J];通信世界;2007年03期
16 王雪冬;李伟英;李强;;商业主题搜索引擎的研究[J];商场现代化;2008年29期
17 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期
18 陈利国;刘忠民;;搜索引擎的工作原理和发展趋势[J];电脑知识与技术(学术交流);2007年23期
19 祁宁;吴齐;赵青;;面向主题信息服务的垂直搜索引擎应用研究[J];图书馆学研究;2008年09期
20 王宁宁;;浅谈CNNIC最新报告对垂直搜索引擎领域的启示[J];图书馆理论与实践;2009年01期
中国重要会议论文全文数据库 前5条
1 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
2 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 蔡欣宝;陈洪平;赵朋朋;崔志明;;一种Deep Web聚焦爬虫爬行策略[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年
5 梁一平;刘连芳;周小平;申文明;;网络蜘蛛Nutch的分析、定制与二次开发[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
中国博士学位论文全文数据库 前6条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
5 管子玉;基于图学习的Web信息检索技术研究[D];浙江大学;2010年
6 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 叶勤勇;基于URL规则的聚焦爬虫及其应用[D];浙江大学;2007年
2 刘凤灵;基于Nutch的漏洞垂直搜索引擎[D];北京邮电大学;2011年
3 黄胜根;智能垂直搜索引擎的研究与设计[D];重庆大学;2010年
4 王小磊;生物医学专题信息跟踪与服务系统关键技术的研究与应用[D];中国人民解放军军事医学科学院;2011年
5 黎斌;可扩展分布式垂直搜索引擎设计与实现研究[D];国防科学技术大学;2008年
6 刘忠;基于强化学习的垂直搜索引擎网络爬虫的研究与实现[D];苏州大学;2008年
7 张慧;旅游信息垂直搜索系统的设计与实现[D];北京邮电大学;2009年
8 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
9 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年
10 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
中国重要报纸全文数据库 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
4 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
5 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
6 本报记者 王宏;搜索引擎 收费能催化市场吗[N];中国计算机报;2001年
7 徐瑾 张玉;市场潜力巨大 价值亟待挖掘[N];人民邮电;2009年
8 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
9 CBN记者 乐琰;“去哪儿”完成第三轮1500万美元融资[N];第一财经日报;2009年
10 记者 吴德群;热门关键词两天抢注一空[N];深圳特区报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978