收藏本站
《大连海事大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

支持Ajax技术的Deep Web网络爬虫模型研究

管翠花  
【摘要】:快速增长的网络信息资源已经成为一个巨大的信息宝藏。实际上通用搜索引擎仅能检索到整个网络资源的一小部分信息(称之为Surface Web),而大部分更有价值的信息资源却不能够被通用搜索引擎检索,这些不能被检索到的信息就称为Deep Web。对Deep Web中信息获取的研究已经越来越受到人们的关注。 在Deep Web中,有相当一部分内容因为以动态网页的形式存在而不能被有效抓取。究其原因是,目前很多网站通过动态脚本的方式与用户进行交互,特别是以Ajax为代表的技术在网站开发中得到了广泛应用。Ajax技术改变了传统的基于静态页面的网站架构,在提高用户体验度的同时,由于其特性如JavaScript事件执行、状态识别与切换等,导致使用Ajax技术的网站及其后台服务器资源无法被通用网络爬虫抓取,成为了不同于Surface Web的Deep Web资源。针对如何获取这类使用Ajax技术的网站信息的问题研究将变得越来越重要,因此,实现此类信息的获取成为了本文工作的出发点。本文的主要研究内容如下: (1)研究了通用网络爬虫的体系结构、工作原理,重点分析其抓取Ajax网页所面临的JavaScript执行、状态识别与切换等问题。基于以上研究,本文提出了一种基于状态仓库的Deep Web网络爬虫(即AjaxFetcher)的体系结构及其基本算法。 (2)该爬虫通过加入嵌入式浏览器的功能,可以模拟执行页面中的JavaScript事件,接受服务器端的异步响应,通过分析页面DOM结构的变化识别新生成的状态,逐步生成Ajax网站的状态仓库,该状态仓库呈现出了Ajax网站的结构及其各个页面状态信息。 (3)由于在Ajax分页抓取中对同一个函数的每次调用都将导致同样的服务器端响应,本文将包含Ajax请求的JavaScript函数标记为热点,通过缓存数据响应策略的方法改进上述基本算法,从而减少与服务器端通信所带来的性能损耗。 最后本论文通过设计对比实验来验证提出的新型网络爬虫的有效性,实验结果表明利用该爬虫能够从Ajax页面更多的获取后台Deep Web资源。
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 张安妮;姜华;郝相莲;;面向主题的快速搜索引擎的设计与研究[J];淮阴工学院学报;2011年03期
2 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
3 张睿涵;林振荣;李建民;衷湾;;基于主题定制的专利网络爬虫的设计与实现[J];计算机与现代化;2011年07期
4 王彩霞;高明;;Deep Web查询接口及其识别算法[J];电脑知识与技术;2011年22期
5 魏毅峰;;产品评论检索系统设计[J];现代经济信息;2011年14期
6 张春菊;张雪英;朱少楠;徐希涛;;基于网络爬虫的地名数据库维护方法[J];地球信息科学学报;2011年04期
7 翟菊叶;马吴迪;;电子商务问答系统的研究[J];科技信息;2011年18期
8 施佺;王恒山;肖仰华;丁卫平;;面向主题的垂直搜索引擎系统的研究与实现[J];微电子学与计算机;2011年07期
9 辛洁;崔志明;赵朋朋;张广铭;鲜学丰;;基于MapReduce虚拟机的Deep Web数据源发现方法[J];通信学报;2011年07期
10 金凡;顾进广;;一种改进的T-Spider分布式爬虫[J];微电子学与计算机;2011年08期
中国重要会议论文全文数据库 前10条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
8 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国重要报纸全文数据库 前9条
1 Victor;电子邮件跟踪服务面世[N];人民邮电;2004年
2 伍裕标;网络监控STOP![N];中国电脑教育报;2003年
3 王猛祥 徐明华;六度分隔:下一代网络交际[N];中国计算机报;2004年
4 商建刚;当你电子邮件地址被拍卖(上)[N];中国计算机报;2001年
5 记者 郭丽君;封堵涉黄网站3500个[N];光明日报;2010年
6 记者 邵素宏;中移动新型拨测系统“扫黄”显威力[N];人民邮电;2010年
7 马季;网络文学遭遇“版权困境”[N];人民日报海外版;2010年
8 记者 曹莉;泛华北(环渤海)工程信息共享平台功能升级[N];中国建设报;2011年
9 上海 陈曦;谷歌之后,谁来制衡百度?[N];电脑报;2010年
中国博士学位论文全文数据库 前10条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
2 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
3 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
4 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
5 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
6 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
7 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
8 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
9 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
10 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
2 刘凯;Deep Web数据集成关键技术研究[D];长春工业大学;2012年
3 邓丽君;基于Deep Web的图书信息集成与查询系统[D];苏州大学;2011年
4 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
5 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
6 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
7 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
8 邓烨;面向特定领域的Deep Web数据自动抽取[D];中国海洋大学;2012年
9 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
10 马也;Deep Web环境下查询松弛技术的研究[D];东北大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026