收藏本站
《华中科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向汽车行业的主题爬虫研究与实现

彭正非  
【摘要】:随着互联网技术的不断发展以及网络信息多元化的发展,传统搜索引擎已经不能满足人们对于特定行业领域的个性化检索需求,因此针对各行业主题信息的搜索引擎应运而生。而主题爬虫是主题搜索引擎的核心部分,为保证其返回查询信息的准确性和及时性,对主题爬虫展开研究具有重要意义。本文设计实现的汽车主题爬虫就是在这样的背景下产生的。 本文首先阐述了主题爬虫的发展现状,然后对目前主流爬虫在主题基准模型、网页信息提取和网页搜索策略等关键模块的各种实现方案进行比较分析,提出了适合汽车主题爬虫建立的一套完整的设计方案,并对主题爬虫的各主要模块进行功能实现。最后对设计的主题爬虫展开性能测试,并进行相应的总结分析。具体地说,本文对汽车主题爬虫的研究工作主要体现在以下几点: 1、分析主流主题爬虫实现流程,提出适合汽车主题爬虫的设计方案,并设计出汽车主题爬虫的总体结构框架。 2、通过比较主题基准模型实现方案,采用向量空间模型的方法构建汽车主题关键词基准模型。 3、通过比较网页分析提取方案,采用TagWindow标签窗口分块技术提取出网页正文和主题相关网页链接。 4、通过比较网页搜索策略方案,采用基于遗传算法的网页搜索策略引导主题爬虫发现更多的主题相关资源。 5、在对汽车主题爬虫各模块实现基础上进行性能测试,对实验数据进行对比分析,指出本文设计的汽车主题爬虫在检索汽车行业主题信息上的优势。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前2条
1 李五一;房地产交易信息搜索和匹配技术的研究与实现[D];杭州电子科技大学;2013年
2 陈威;一种针对Deep Web深层数据获取的网络爬虫设计与实现[D];华中师范大学;2013年
【参考文献】
中国期刊全文数据库 前8条
1 杨如祥;曾献辉;;一种基于网页特征提取的网站全文搜索系统的设计与实现[J];东华大学学报(自然科学版);2007年05期
2 蒋昌金;彭宏;陈建超;马千里;;基于主题词权重和句子特征的自动文摘[J];华南理工大学学报(自然科学版);2010年07期
3 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
4 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期
5 刘国靖;康丽;罗长寿;;基于遗传算法的主题爬虫策略[J];计算机应用;2007年S2期
6 高波,查志琴,郑成增;基于Intranet的搜索引擎[J];计算机应用研究;2004年02期
7 李广丽;;基于网页内容评价和Web图的启发式垂直搜索策略的设计[J];情报理论与实践;2009年09期
8 张玲,林亚平,陈治平,童调生;基于综合价值的Web主题信息搜集策略研究[J];系统仿真学报;2005年02期
中国硕士学位论文全文数据库 前1条
1 邓铮;基于网页分块思想的搜索引擎索引系统[D];天津大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期
2 郑淼;;基于WEB的高校毕业生管理系统设计[J];常州工学院学报;2007年03期
3 刘智浓;张永利;;搜索引擎技术简析[J];电脑知识与技术;2006年02期
4 高灵霞;;基于主题爬虫的个性化搜索引擎技术分析[J];电脑知识与技术;2009年32期
5 李园伟;;面向高校主题搜索引擎的的爬行器设计[J];电脑知识与技术;2011年16期
6 张春菊;张雪英;朱少楠;徐希涛;;基于网络爬虫的地名数据库维护方法[J];地球信息科学学报;2011年04期
7 许金玲;陈旭翔;赵少娟;丁必蛟;;基于信令分析的客户网络标签体系搭建[J];电信快报;2012年05期
8 姜峰;范玉顺;;基于覆盖度函数的概念格约简[J];电子与信息学报;2010年02期
9 徐诗亮;;一种基于概念空间的主题爬虫设计方法[J];福建电脑;2008年10期
10 付光;;面向招聘信息主题搜索引擎的研究与设计[J];广西教育;2011年18期
中国重要会议论文全文数据库 前4条
1 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
3 单铁城;张安妮;马德辉;;基于爬虫改进算法的个性化搜索引擎应用研究[A];战略性新兴产业与科技支撑——2012年山东省科协学术年会论文集[C];2012年
4 薛广普;;面向个性化的移动搜索技术研究[A];中国新闻技术工作者联合会2013年学术年会、五届五次理事会暨第六届“王选新闻科学技术奖”和优秀论文奖颁奖大会论文集(报业篇)[C];2013年
中国博士学位论文全文数据库 前2条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 廉捷;基于用户特征的社交网络数据挖掘研究[D];北京交通大学;2014年
中国硕士学位论文全文数据库 前10条
1 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
2 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
3 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
4 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
5 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
6 杨华;网络信息动态采集策略的研究及应用[D];河北科技大学;2011年
7 张韦;基于语义的Web主题提取的研究[D];湖北工业大学;2011年
8 戴依若;基于内容的中文流行病新闻主题分类[D];北京邮电大学;2011年
9 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
10 王培顺;互联网教育舆情监测系统的设计与实现[D];华中师范大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 郑源;任海英;;时态GIS在房屋全生命周期管理信息平台中的设计与应用[J];北京测绘;2012年03期
2 蒋玲艳;张军;钟树鸿;;蚁群算法的参数分析[J];计算机工程与应用;2007年20期
3 朱炜;王超;李俊;潘金贵;;Web超链分析算法研究[J];计算机科学;2003年09期
4 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
5 肖美华,薛锦云;遗传算法机理的研究及应用[J];计算机工程;2003年20期
6 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
7 伍爱华;李智勇;;蚁群遗传算法的多目标优化[J];计算机工程;2008年08期
8 徐照财;程显毅;;基于多Agent系统的定题爬虫算法[J];计算机工程;2008年16期
9 曾广朴;范会联;;基于遗传算法的聚焦爬虫搜索策略[J];计算机工程;2010年11期
10 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
中国博士学位论文全文数据库 前4条
1 陈霄;DNA遗传算法及应用研究[D];浙江大学;2010年
2 杨剑峰;蚁群算法及其应用研究[D];浙江大学;2007年
3 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
4 刘波;蚁群算法改进及应用研究[D];燕山大学;2010年
中国硕士学位论文全文数据库 前10条
1 张仲祥;基于领域本体的Deep Web数据源聚焦技术研究[D];广西师范大学;2011年
2 黄隽毅;关于Web数据挖掘中HITS算法的研究[D];大连理工大学;2004年
3 刘强国;主题搜索引擎设计与研究[D];电子科技大学;2007年
4 叶勤勇;基于URL规则的聚焦爬虫及其应用[D];浙江大学;2007年
5 崔金国;基于蚁群算法的主题爬虫技术研究与实现[D];成都理工大学;2010年
6 冯思平;Web招标信息搜索及管理系统的设计[D];电子科技大学;2009年
7 蒋超;面向人物简介的主题爬虫设计与实现[D];吉林大学;2012年
8 赵海澎;基于高斯核及PageRank的复杂网络社区发现算法研究[D];大连理工大学;2012年
9 李雯鑫;基于领域本体的Deep Web接口集成与查询转换研究[D];辽宁大学;2012年
10 谢月;网页排序中PageRank算法和HITS算法的研究[D];电子科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 张利 ,邵世煌 ,曾献辉 ,尹美华;A Case Study of Search Engine on World Wide Web for Chemical Fiber Engineering[J];Journal of DongHua University;2001年03期
3 张利 ,邵世煌 ,吴晓琼 ,曾献辉 ,范晓文;Current Application of Search Engines and Their Developing Trend[J];Journal of DongHua University;2002年02期
4 吴果;Web搜索引擎的现状分析[J];河南纺织高等专科学校学报;2001年02期
5 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
6 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
7 李蕾,王楠,张剑,钟义信,郭祥昊,贾自燕;中文搜索引擎概念检索初探[J];计算机工程与应用;2000年06期
8 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
9 朱炜;王超;李俊;潘金贵;;Web超链分析算法研究[J];计算机科学;2003年09期
10 黄于蓝,王洪,徐端颐,贾惠波;搜索引擎技术的新发展—多元搜索引擎系统[J];计算机工程;2002年01期
中国硕士学位论文全文数据库 前1条
1 曾义聪;基于概念树的主题爬取技术研究[D];湖南大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 钟世通;;C++Builder编程访问网页信息的方法[J];科技资讯;2007年19期
2 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
3 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
4 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
5 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
6 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
7 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
8 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
9 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
10 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
8 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
9 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
6 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
7 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
8 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
8 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
9 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
10 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026