收藏本站
《厦门大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

过滤型网络爬虫的研究与设计

陈奋  
【摘要】: 网络爬虫是一个可以从因特网上自动提取网页的系统,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。通用搜索引擎的网络爬虫一般是从几个种子URL链接开始进行全盘爬行,而专业领域搜索引擎的网络爬虫除了通用网络爬虫的基本功能外,还能够对链接以及页面内容进行识别,因此称作聚焦网络爬虫。聚焦网络爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。聚焦网络爬虫已经成为搜索引擎技术领域的一个研究热点,对于专业领域的搜索产生重要的作用。 本论文从聚焦的另一个角度——“过滤”上来研究网络爬虫技术,称这种类型的网络爬虫为“过滤型网络爬虫”。论文首先介绍了网络爬虫所起的作用以及网络爬虫技术的发展现状;接着在从两个方面来研究过滤型网络爬虫技术:(1)从链接过滤上,提出了链接群体的概念,根据不同的网站类型将链接群体分为单模式链接群体和多模式链接群体,同时在分析了传统的链接过滤算法的基础上,提出了基于规则匹配的链接过滤算法;(2)从内容过滤上,主要从以下三个方面来研究:(a)提出了一种基于网站内容特征的网站类型辨识方法,(b)使用一种基于标签权重的网页文本特征词选择算法,在此基础上构建网页文本的空间向量模型,并将该向量模型跟已经设定好的主题向量模型进行相似度计算,从而形成基于向量空间模型的主题过滤算法,(c)在分析非结构化数据分类过程的基础上,使用了基于朴素贝叶斯分类器的主题类别过滤算法;最后设计并实现了一个过滤型网络爬虫系统,并详细介绍了系统的整体设计流程、系统结构以及系统几个关键模块和关键技术。
【学位授予单位】:厦门大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP311.52

【引证文献】
中国硕士学位论文全文数据库 前5条
1 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
2 何丹丹;社交网络视频分享测量平台的设计与实现[D];华中科技大学;2011年
3 严鸿毅;基于聚焦爬虫的网上药品信息监测系统[D];浙江工业大学;2011年
4 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
5 杨洁;基于渗透测试的分布式跨站漏洞挖掘系统的设计与实现[D];西安电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前1条
1 刘小虎,李生;决策树的优化算法[J];软件学报;1998年10期
中国硕士学位论文全文数据库 前3条
1 谭思亮;聚焦爬行系统的设计—算法视角[D];中国科学院研究生院(成都计算机应用研究所);2006年
2 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年
3 林乐彬;Inar网络爬虫的设计与实现[D];哈尔滨工业大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 范生万;王浩;;贝叶斯网络在高职英语应用能力考试中的应用研究[J];安徽工程科技学院学报(自然科学版);2007年04期
2 范生万;;贝叶斯网络分类模型在教育中的应用研究[J];安徽建筑工业学院学报(自然科学版);2008年01期
3 陈家俊;苏守宝;徐华丽;;一种面向噪声数据的决策树优化算法研究[J];安庆师范学院学报(自然科学版);2011年03期
4 张旭;熊文强;许丹宇;王丽丽;;BP模型在水泥行业清洁生产评价案例中的应用[J];环境科学与管理;2009年05期
5 杨有龙,吴艳;基于进化算法的贝叶斯网络度量[J];兵工学报;2004年05期
6 李开灿,耿直;条件独立性的三种形式及其相互关系[J];北京大学学报(自然科学版);2002年05期
7 许静,郑忠国;有向非循环图的可反向边集合的结构与判定[J];北京大学学报(自然科学版);2003年01期
8 赖英旭;杨震;;改进贝叶斯算法在未知恶意软件识别中的研究[J];北京工业大学学报;2011年05期
9 赵悦;穆志纯;董洁;付冬梅;何伟;;基于QBC主动学习方法建立电信客户信用风险等级评估模型[J];北京科技大学学报;2007年04期
10 李现实;钟秋海;;改进决策树算法在企业资源计划系统中的应用[J];北京理工大学学报;2006年02期
中国重要会议论文全文数据库 前10条
1 居胜峰;王中卿;李寿山;周国栋;;情感分类中不同主动学习策略比较研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 张霆;陈波;马胜林;徐涛;沈国理;俞钻;赵小飞;徐雅萍;;基于贝叶斯网络的肺癌证候研究[A];庆祝浙江省中西医结合学会成立三十周年论文集粹2011[C];2011年
3 郭唐松;;简论社会主义和谐社会共同的思想基础[A];科学发展观与中国特色社会主义——全国社会科学院系统邓小平理论研究中心第十一届年会暨学术研讨会论文集[C];2006年
4 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
5 刘振;代进进;王毅;;贝叶斯网络推理与算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
6 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
7 肖兵;沈薇薇;金宏斌;;基于动态贝叶斯网络的威胁估计研究[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年
8 赖英旭;李征;;未知病毒检测技术的研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
9 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
10 刘萍;刘燕兵;谭建龙;郭莉;;对多模式串匹配算法性能评测方法的探讨[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
中国硕士学位论文全文数据库 前10条
1 郑伟;MDL算法用于时间梯度设计试验猪骨骼肌基因调控网络分析上的研究[D];华中农业大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 韩成勇;高校学评教决策支持系统设计与实现[D];苏州大学;2010年
4 朱俊;多模式匹配算法研究[D];合肥工业大学;2010年
5 张睿;ID3决策树算法分析与改进[D];兰州大学;2010年
6 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
7 白冬艳;数据挖掘在煤炭综合统计系统的应用研究[D];河北工程大学;2010年
8 邸明星;多决策树算法在P2P网络流量检测的应用[D];哈尔滨理工大学;2010年
9 伍红亮;基于最小风险的贝叶斯邮件过滤算法研究[D];华南理工大学;2010年
10 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 范渊;;Web应用风险扫描的研究与应用[J];信息安全与技术;2010年09期
2 张璇;左敏;;一种改进的朴素贝叶斯分类器在文本分类中的应用研究[J];北京工商大学学报(自然科学版);2009年04期
3 刘文娟;袁文芳;;校内网的SNS人际传播特征分析[J];东南传播;2009年05期
4 陈丽君;;聚焦爬虫常见算法分析[J];电脑知识与技术;2008年S1期
5 李春艳;徐保民;;Web数据抽取技术研究初探[J];电脑知识与技术;2009年35期
6 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
7 赵红毅;刘利坚;;一种分布式系统进程调度方法研究[J];电子科技;2010年06期
8 杨方启;杨宇;;网络售假行为的法律规制问题探讨[J];中国工商管理研究;2009年04期
9 谢新洲;肖雯;;我国网络信息传播的舆论化趋势及所带来的问题分析[J];情报理论与实践;2006年06期
10 何晓阳,吴强,吴治蓉;HITS算法与PageRank算法比较分析[J];情报杂志;2004年02期
中国硕士学位论文全文数据库 前10条
1 秦英;基于行为的跨站脚本攻击检测技术研究与实现[D];西安电子科技大学;2010年
2 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
3 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
4 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年
5 宁力;搜索引擎中网页查重方法的研究[D];北京化工大学;2007年
6 范小源;搜索引擎系统网页消重的研究与实现[D];中南民族大学;2007年
7 张世荣;支持向量机文本分类算法研究[D];大连理工大学;2007年
8 徐照财;基于Agent的专题搜索引擎爬虫的研究[D];江苏大学;2007年
9 罗理;基于Web对象的分布式抓取及存储的设计与研究[D];昆明理工大学;2008年
10 薛艳珠;主题爬行器的研究与实现[D];电子科技大学;2008年
【二级引证文献】
中国期刊全文数据库 前2条
1 程芃森;安俊秀;;基于特征词群的新闻类重复网页和近似网页识别算法[J];成都信息工程学院学报;2012年04期
2 熊志斌;王冬;尹成国;;舆情监测技术及应用综述[J];软件;2012年12期
中国硕士学位论文全文数据库 前7条
1 张为;公众论坛信息实时检索的研究与实现[D];南京理工大学;2012年
2 邵蕾;基于Lucene的教学资源垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
3 张敏;基于WEB的学科资源垂直搜索引擎的设计与实现[D];华中师范大学;2012年
4 魏胜辉;机械领域文本采集和分类的研究与设计[D];西安建筑科技大学;2012年
5 冯静;XML数据流上关键字查询的研究与实现[D];西南大学;2012年
6 张芳;校园网搜索引擎中网页去重技术的研究[D];内蒙古科技大学;2012年
7 谢彦彬;信息系统安全评估关键技术研究与应用[D];中原工学院;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 张海涛,刘甲学,宋川;超文本系统信息结构组成元素—链的分析[J];情报科学;2002年04期
3 邹涛,黄源,张福炎;基于WWW的文本信息挖掘[J];情报学报;1999年04期
4 慕春棣,tsinghua.edu.cn,戴剑彬,叶俊;用于数据挖掘的贝叶斯网络[J];软件学报;2000年05期
5 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
6 陈红英,杨宜民;基于多智能体的网络信息系统的原理与实现[J];微电子学与计算机;2005年03期
7 左远清,周洞汝,王波;自然语言处理在搜索引擎信息检索中的应用[J];现代计算机(专业版);2002年07期
8 李名智;中文搜索引擎发展的现状、问题及对策[J];中国信息导报;1999年02期
9 王玮,陈恩红,王煦法;基于贝叶斯方法的知识发现[J];小型微型计算机系统;2000年07期
10 袁曾任,卢振中;由神经网络提取规则的一种方法及其应用[J];信息与控制;1997年01期
【相似文献】
中国期刊全文数据库 前10条
1 廖开际;叶东海;席运江;;基于知识模式的企业文本知识自动分类研究[J];情报杂志;2010年09期
2 扬抒;陈尚安;武刚;;一种基于自动WEB数据抽取生成黄页的方法[J];微计算机信息;2010年33期
3 曹玉林;;基于滥用的入侵检测方法分析与研究[J];青海师范大学民族师范学院学报;2008年02期
4 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
5 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
6 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
7 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
8 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
9 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
10 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
中国重要会议论文全文数据库 前10条
1 刘小平;黎夏;张啸虎;;一种新的基于多标记分解模型的遥感软分类方法[A];中国地理学会百年庆典学术论文摘要集[C];2009年
2 林燕;;环境有害物质分类标准的变更及监管建议探讨[A];2009年中国航海学会危险货物运输专业委员会论文集[C];2009年
3 李荣玲;黄晓东;王亚丽;;探讨宣钢外粉分类方法及其重要性[A];2010年河北省冶金学会炼铁技术暨学术年会论文集[C];2010年
4 顾巧论;陈秋双;;再制造物流网络模型设计[A];第二十二届中国控制会议论文集(下)[C];2003年
5 陈志华;秦亚丽;史杰;;弦支穹顶结构体系的分类及结构特性分析[A];首届全国建筑结构技术交流会论文集[C];2006年
6 蒲蔚然;;探索适应新形势需要的城市用地分类标准[A];和谐城市规划——2007中国城市规划年会论文集[C];2007年
7 朱云娜;郭芃芃;于晓南;;北京地区芍药品种花色与叶色调查分析[A];中国观赏园艺研究进展2008——中国园艺学会观赏园艺专业委员会2008年学术年会论文集[C];2008年
8 张功林;章鸣;郭翱;吴发林;吴辉国;王干生;;介绍一种指尖与甲床缺损的分类方法[A];浙江省医学会手外科学分会成立大会暨2008年学术年会论文汇编[C];2008年
9 钱颖;聂俊岚;刘国华;郜时红;;基于全集的复杂模式匹配[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
10 陈君颖;田庆久;;高分辨率遥感植被分类模式研究[A];第十五届全国遥感技术学术交流会论文摘要集[C];2005年
中国重要报纸全文数据库 前10条
1 记者 陶艺音;因势利导 拓展空间[N];上海科技报;2006年
2 王跃庆;骨性关节炎需个体化治疗[N];家庭医生报;2006年
3 记者 汤璇 通讯员 廖启光 蒋明 王鹏翔;垃圾分类将有部颁标准[N];广东建设报;2004年
4 ;初步创伤评估 伤者分类方法[N];中国质量报;2001年
5 叶 建;轿车的分类方法令人困惑[N];中国汽车报;2003年
6 ;中药分类方法[N];云南科技报;2002年
7 王停;荆鲁;高学敏;中成药分类方法中存在的问题[N];中国医药报;2004年
8 王建平;软件产业统计和分类方法的断想[N];中国计算机报;2004年
9 新辑;中药分类逐个数[N];医药经济报;2003年
10 刘俊旺;鉴定专家也需“鉴定”[N];中国艺术报;2006年
中国博士学位论文全文数据库 前10条
1 庞引明;基于结构化联接的XML查询模式匹配关键技术研究[D];复旦大学;2004年
2 杨宏宇;网络入侵检测技术的研究[D];天津大学;2003年
3 杜小坤;数据库模式匹配算法研究[D];华中科技大学;2010年
4 张浩;视频运动人体行为识别与分类方法研究[D];西安电子科技大学;2011年
5 于志宏;视频安全与网络安全若干问题研究[D];吉林大学;2009年
6 魏连鑫;多小波理论及其在虹膜识别技术中的应用[D];吉林大学;2006年
7 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
8 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
9 杨从科;中国农业科学数据资源建设研究[D];中国农业科学院;2007年
10 明星;虹膜识别技术中小波变换的应用原理与方法[D];吉林大学;2006年
中国硕士学位论文全文数据库 前10条
1 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
2 胡德华;Snort检测引擎的改进与实现[D];东北大学;2005年
3 陈鹏;基于模式匹配的网络入侵检测系统的研究与实现[D];湖南大学;2005年
4 张晓光;基于模式匹配的入侵检测系统应用研究[D];大连海事大学;2010年
5 陈雪林;基于Web的网络入侵检测系统设计与实现[D];成都理工大学;2004年
6 王兴义;基于模式匹配的中文专有名词识别[D];山西大学;2005年
7 张国权;基于模式匹配和协议分析的NIDS研究和设计[D];大连理工大学;2006年
8 刘少君;基于协议分析的网络入侵检测系统研究与设计[D];河海大学;2006年
9 邓庆锋;模式匹配在入侵检测系统中的应用[D];浙江大学;2006年
10 李韦韦;多层特征分配网络入侵检测系统[D];南昌大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026