收藏本站
《杭州电子科技大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

Web漏洞扫描系统中的智能爬虫技术研究

黄亮  
【摘要】:针对Web安全问题,目前最常用的技术是采用Web漏洞扫描系统进行检测。网络爬虫是Web漏洞扫描器重要组成部分,负责抓取站点的页面信息,为Web漏洞扫描器提供数据源及扫描入口。网络爬虫是一个智能抓取网页的程序,论文主要研究网络爬虫技术。 所做的主要工作包括以下几部分: 1)介绍了网络爬虫及其采用的爬行策略,论述了通用爬虫、聚集爬虫、深层爬虫三种典型网络爬虫技术,详述了聚集爬虫使用的几个重要网页分析算法,分析了已有的基于爬虫技术的Web漏洞扫描系统。 2)通过对扫描对象特点的分析,提出了一种基于属性标签的Web数据挖掘的算法。即利用网页的所有标签,构造带有属性标签的DOM树;通过属性标签对子树做比较,发现标签序列的重复模式;制定了三个规则排出干扰模式,找到数据区域,用向量记录包含有用数据的重复模式;通过向量提取出数据记录。验证该方法有效性的实验对象是卓越网各类目,从实验的数据可以发现,该方法可以卓越网页中提取出大约90%的数据,正确率与覆盖率都很高。 3)基于属性标签的Web数据挖掘的方法可以挖掘很多网页的重复数据,但对重复模式只具备相似性不具备一致性的网页不起作用。针对这个问题,提出了一种基于编辑距离的Web数据挖掘算法。把树编辑距离转化为字符串编辑距离的计算,利用字符串编辑距离评价树的相似度,进而找到网页中的重复模式,提取数据。通过针对不同重复模式特征的网页的实验说明,该算法不仅能挖掘具有特征一的网页的数据,也能挖掘具有特征二的网页的数据,能把20个百度贴吧网页包含的1000个数据都提取出来。 4)最后设计并实现了一个智能爬虫程序。详述了各个模块功能,绘制了各个模块的流程图。根据流程图用Java编程实现,并用实验证明模块达到预定的功能。该爬虫将论文提出的新算法运用于爬虫策略制定,能很好地从交互性强的站点如电子商务、贴吧、论坛等抓取出网页。
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.08

【参考文献】
中国期刊全文数据库 前5条
1 范渊;;Web应用风险扫描的研究与应用[J];信息安全与技术;2010年09期
2 顾韵华;田伟;;基于DOM模型扩展的Web信息提取[J];计算机科学;2009年11期
3 赵亭;陆余良;刘金红;孙宏纲;施凡;;基于表单爬虫的Web漏洞探测[J];计算机工程;2008年09期
4 胡仁龙;袁春风;武港山;濮小佳;;基于重复模式的自动Web信息抽取[J];计算机工程;2008年22期
5 沈寿忠;张玉清;;基于爬虫的XSS漏洞检测工具设计与实现[J];计算机工程;2009年21期
【共引文献】
中国期刊全文数据库 前10条
1 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
2 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
3 章邺;;基于Struts2框架的图书馆内部管理系统的研究[J];长春大学学报;2011年12期
4 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
5 黎佩南;;一种快速排序算法的实现及其应用[J];电讯技术;2012年02期
6 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期
7 孙铁利;教巍巍;刘淑华;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
8 张华杰;;关于Java类加载器的探讨[J];电脑编程技巧与维护;2010年18期
9 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
10 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 甘屹;张雪梅;;网络化制造中产品设计数据转换研究与应用[A];全国先进制造技术高层论坛暨第十届制造业自动化与信息化技术研讨会论文集[C];2011年
4 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
5 常珂;刘辰;杨正球;;基于树状结构的查询算法的设计与实现[A];中国通信学会第六届学术年会论文集(中)[C];2009年
6 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
7 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
8 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
9 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
4 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
5 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
6 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
7 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
8 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
9 郑桂华;基于网络的语文校本课程研究与实践[D];华东师范大学;2004年
10 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
5 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
6 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
7 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
8 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
9 赛子龙;日志分析数据同步机制在区域微软技术中心营运平台中的应用研究[D];南昌大学;2010年
10 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前4条
1 冯艳为;王成良;;基于Web部件的个性化网站创建技术[J];重庆工学院学报(自然科学版);2008年02期
2 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
3 高强;张敬之;耿桦;潘金贵;;基于重复模式的Web信息抽取[J];计算机科学;2007年04期
4 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
中国博士学位论文全文数据库 前2条
1 陈光;信息系统信息安全风险管理方法研究[D];国防科学技术大学;2006年
2 胡勇;网络信息系统风险评估方法研究[D];四川大学;2007年
中国硕士学位论文全文数据库 前1条
1 安永新;基于风险的Web应用测试研究[D];重庆大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 李涛;李太浩;;GFI LANguard N.S.S在网络漏洞扫描中的应用[J];农业网络信息;2011年01期
2 ;如何用RJ-iTop漏洞扫描产品查找烟草局的网络漏洞[J];计算机与网络;2004年24期
3 伍华健;;基于漏洞扫描的安全中间件的设计与实现[J];微电子学与计算机;2006年11期
4 张春瑞;王开云;高行宇;赵伟锋;;基于漏洞扫描的入侵检测规则屏蔽方法研究[J];计算机应用与软件;2008年07期
5 范娜;王新喆;许榕生;;一种生存性分析系统的设计与实现[J];计算机应用与软件;2009年01期
6 洪沙,罗书强;现代制造企业网络信息安全的关键技术及应用[J];机械与电子;2001年01期
7 洪宏,张玉清,胡予濮,戴祖锋;网络安全扫描技术研究[J];计算机工程;2004年10期
8 沈阳,黄厚宽;网络安全漏洞扫描器[J];电脑与信息技术;2004年04期
9 金华松,张章学;嵌入扫描器的网络入侵检测系统设计和应用[J];情报探索;2004年03期
10 ;瑞星2005附带小工具的使用技巧[J];软件;2005年05期
中国重要会议论文全文数据库 前10条
1 李锋;冯珊;魏莹;周凯波;;基于移动智能体技术的漏洞扫描系统模型[A];西部开发与系统工程——中国系统工程学会第12届年会论文集[C];2002年
2 王琦;;漏洞扫描等工具在安全评估中的作用[A];中国信息协会信息安全专业委员会年会文集[C];2004年
3 李建安;谷利泽;杨义先;;漏洞扫描与补丁管理系统的设计与实现[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
4 牛冠杰;郑康锋;钮心忻;杨义先;;SOCKET代理技术在网络扫描中的应用[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
5 龚小刚;;网络漏洞扫描技术研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
6 张满怀;;IDC网络安全研究[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
7 王佳生;;政务信息网的安全保障体系[A];黑龙江省通信学会学术年会论文集[C];2005年
8 王新留;谷利泽;杨义先;;小型网络入侵防御系统的技术研究和实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
9 李锋;陶兰;;天成网络安全卫士系统的设计和开发[A];Java技术及应用的进展——第八届中国Java技术及应用交流大会文集[C];2005年
10 张瑞武;夏靖波;罗赟骞;;一种基于Snort的分布式入侵检测平台的设计与实现[A];第二十次全国计算机安全学术交流会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 罗韩琦;网络漏洞扫描产品市场前景看好[N];中国高新技术产业导报;2005年
2 ;金睛火眼寻蚁穴[N];网络世界;2005年
3 罗韩琦;网络漏洞扫描市场 技术与服务并重[N];中国高新技术产业导报;2005年
4 杨金龙;福建榕基提升“堵漏”新标准[N];中国企业报;2005年
5 ;启明星辰推出分布式漏洞扫描系统[N];中国计算机报;2003年
6 ;为弥补系统漏洞出力[N];网络世界;2004年
7 王明毅;入侵检测融合漏洞扫描技术带来产品新突破[N];中国石油报;2004年
8 杨亮;当前网络漏洞扫描产品市场初探[N];大众科技报;2005年
9 钟力 万孝雄;明查秋毫[N];网络世界;2003年
10 齐文泉 钟山 杨冀龙;查找弱点 防患未然[N];计算机世界;2005年
中国博士学位论文全文数据库 前3条
1 段丹青;入侵检测算法及关键技术研究[D];中南大学;2007年
2 廖年冬;信息安全动态风险评估模型的研究[D];北京交通大学;2010年
3 王垚;域名系统安全性研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 邹维福;基于电子政务网络平台的分布式漏洞扫描系统的设计[D];福州大学;2004年
2 李伟;基于嵌入式系统的漏洞扫描系统[D];福州大学;2003年
3 范晨;IPv4/IPv6过渡阶段网络安全工具的实现与研究[D];山东科技大学;2003年
4 何颖;基于Nessus的网络安全检测[D];吉林大学;2006年
5 邢栩嘉;计算机网络脆弱性评估系统的设计与实现[D];清华大学;2004年
6 王儒伟;缓冲区溢出攻击分析和防范策略研究[D];吉林大学;2007年
7 刘云皓;基于网络的安全漏洞扫描技术研究与系统实现[D];西北工业大学;2003年
8 沈伟锋;面向攻击的网络漏洞扫描技术研究及系统实现[D];西北工业大学;2004年
9 陈煜;基于J2EE漏洞扫描系统的设计[D];中南大学;2005年
10 刘莉;网络漏洞扫描器的设计与实现[D];西安电子科技大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026