收藏本站
《重庆大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于网页分块的主题爬虫方法研究

邢敏玲  
【摘要】:随着网络上信息的爆炸式增长,普通搜索引擎的查询结果越来越不能满足用户查询的需要,尤其是那些查询特定信息的不同领域、不同背景的用户,因此适应特定主题和个性化搜索的垂直搜索引擎应运而生。 主题爬虫作为垂直搜索引擎的核心组成部分,其抓取的网页的质量好坏直接影响垂直搜索引擎的返回结果。如何判断下载的网页与目标主题的相关度和如何确定待爬行队列中URL的访问优先级是主题爬虫中影响抓取的网页质量的关键因素;同时由于Web页面的结构特性,致使主题爬虫在爬行过程中存在“隧道”现象,它的存在将会对爬行的覆盖率和准确率造成较大的影响。 本文利用网页分块判断主题相关度和最佳优先搜索策略的优势,同时为了克服“隧道”现象,提出了一种基于网页分块的主题爬虫方法: ①将分类器的思想应用到主题爬虫中,训练出了针对主题爬虫的类中心向量分类器,该分类器主要用于确定网页或网页块的主题类别和它们之间的相似度,其突出的优点是可以较好的描述用户感兴趣的主题,分类速度快,能提高爬行的速度; ②在网页块内考虑URL的差异,将块内的URL分为特殊URL和普通URL进行访问优先级预测,从而提高预测的准确性,克服由于预测不准确带来的相关网页被忽略的问题; ③通过在网页块内引用类间转移概率,克服爬行过程中存在的“黑色隧道”现象,通过利用网页分块的思想,克服爬行过程中存在的“灰色隧道”现象。 最后从DMOZ目录中选取3种不同的目标主题对基于本文提出的方法和已存在的基于文字内容的方法及基于分类器的方法实现的三种主题爬虫采用常用的性能评估值——Harvest Ratio进行对比验证,实验结果表明本文提出的方法实现的主题爬虫在Harvest Ratio上要优于其他两种方法,较好的满足了主题爬虫的需求。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
3 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
4 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
5 陈龙;范瑞霞;高琪;;基于概念的文本表示模型[J];计算机工程与应用;2008年20期
6 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
7 刘朋;林泓;高德威;;基于内容和链接分析的主题爬虫策略[J];计算机与数字工程;2009年01期
8 郭进;统计语言模型及汉语音字转换的一些新结果[J];中文信息学报;1993年01期
9 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
10 姜鹏;宋继华;;一种主题爬虫文本分类器的构建[J];中文信息学报;2010年06期
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 郭琛;数字图书馆的中文网页文本分类器研究[D];武汉理工大学;2005年
2 彭时名;中文文本分类中特征提取算法研究[D];重庆大学;2006年
3 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
4 陈海波;基于自动分词的企业文档搜索引擎设计与实现[D];西北工业大学;2007年
5 杨贞;基于本体的主题爬虫的设计与实现[D];合肥工业大学;2008年
6 朱良峰;主题网络爬虫的研究与设计[D];南京理工大学;2008年
7 彭浩;基于领域关键词自动扩展的变量主题Hopfield聚焦爬虫的研究[D];中南大学;2008年
8 朱丽娜;中文网页分类特征提取方法研究[D];中国石油大学;2009年
9 周程远;中文自动分词系统的研究与实现[D];华东师范大学;2010年
10 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 杜道流;指称、陈述理论及其对上古语法研究的意义[J];安徽大学学报;2004年01期
2 姜红;;具体名词和抽象名词的不对称现象[J];安徽大学学报(哲学社会科学版);2009年02期
3 施发笔;试论《水浒传》介词避复的技巧[J];安徽教育学院学报;2002年04期
4 阮绪和;形名偏正结构的语法功能[J];安徽教育学院学报;2003年02期
5 陶振伟;;“拿”的语法化[J];安徽教育学院学报;2006年04期
6 樊友新;;从“被就业”看“被”的语用功能[J];合肥师范学院学报;2010年02期
7 冯鸣;英语表持续时段的for短语和汉语时量词语的比较[J];安徽广播电视大学学报;2001年02期
8 王有卫;;语素文字说质疑[J];安徽广播电视大学学报;2010年03期
9 柳国栋;;《论语》重叠词略论[J];安徽职业技术学院学报;2008年02期
10 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
中国重要会议论文全文数据库 前10条
1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
5 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
6 李影;付莉;;韩国中小学生“是”的错序偏误分析[A];语言与文化研究(第四辑)[C];2009年
7 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
8 吕晓玲;;闽南方言南安话的类结构助词“得”、“说”、“伊”、“通”[A];福建省辞书学会第五届会员代表大会暨第十九届年会论文集[C];2009年
9 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
10 田长生;;浅谈《论语》中的复叠现象[A];江西省语言学会2005年年会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 陈佳;论英汉运动事件表达中“路径”单位的“空间界态”概念语义及其句法—语义接口功能[D];上海外国语大学;2010年
2 郭红;基于第二语言教学的汉语语气范畴若干问题研究[D];南开大学;2010年
3 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
6 杨先明;0-5岁汉语儿童语言发展的认知研究[D];武汉大学;2010年
7 彭懿;英汉肤觉形容词的认知语义研究[D];湖南师范大学;2010年
8 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
9 龙又珍;现代汉语寒暄系统研究[D];武汉大学;2009年
10 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 黄雪;俄汉语词汇理据性对比研究[D];哈尔滨师范大学;2010年
3 马晶晶;表人名词类词缀“X手”、“X者”、“X员”分析比较[D];辽宁师范大学;2010年
4 乌晓丽;“X+—N比—N+VP”表义功能新探[D];辽宁师范大学;2010年
5 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
6 曹萍;府城官话研究[D];广西师范学院;2010年
7 旷金辉;汉英名词前置修饰语语序对比研究[D];上海外国语大学;2010年
8 陶胜妃;现代汉语谓词修饰词前后位置比较研究[D];上海外国语大学;2010年
9 严伟剑;疑问代词“怎么”“怎样”“怎么样”对比研究[D];上海外国语大学;2010年
10 耿冰;“实现事件”结构词汇化模式的英汉对比研究[D];上海外国语大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
3 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
4 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
5 李明杰;;特征抽取方法在网页分类中的应用[J];常熟理工学院学报;2005年04期
6 刘刚;于力超;;搜索引擎中网络蜘蛛的设计与实现[J];电脑与信息技术;2007年04期
7 何峰,林亚丽;改进的KNN文本分类算法综述[J];福建电脑;2005年01期
8 徐建斌,施亚东;基于概念的文本自动分类研究的综述[J];福建电脑;2005年02期
9 瞿锋;陈纪元;;汉语自动分词算法综述[J];福建电脑;2006年04期
10 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前2条
1 董道国;高维数据索引结构研究[D];复旦大学;2005年
2 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 张驰;Web信息获取技术研究与实现[D];西北工业大学;2001年
2 陈本庆;遗传算法研究及其在排课问题中的应用[D];西南交通大学;2003年
3 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
4 陈鑫;中文智能搜索引擎[D];四川大学;2004年
5 何华;搜索引擎中的数据存储问题研究[D];浙江大学;2005年
6 白广奇;网页内容过滤的关键技术研究及实现[D];山东大学;2005年
7 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
8 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
9 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
10 王思力;面向大规模信息检索的中文分词技术研究[D];中国科学院研究生院(计算技术研究所);2006年
【相似文献】
中国期刊全文数据库 前10条
1 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
2 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
3 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
4 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
5 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
6 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
7 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
8 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
9 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
10 刘军;张净;;基于DOM的网页主题信息的抽取[J];计算机应用与软件;2010年05期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
3 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
8 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
10 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
5 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
6 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
7 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
8 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
9 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
10 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
4 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
5 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
6 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
7 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
8 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
9 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
10 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026