收藏本站
《北京交通大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

支持Ajax技术的主题网络爬虫系统研究与实现

王佳  
【摘要】:网络爬虫是搜索引擎的重要组成部分,负责互联网中数据的采集工作。随着网络技术的发展,越来越多的网站开始应用Ajax技术。Ajax采用异步模式向服务器发送请求,并将从服务器获取的数据动态显示在Web页面,网页的源文件和URL都不发生变化。这一技术的应用使得传统根据HTML源文件进行信息采集的网络爬虫无法采集到动态信息。Ajax技术的应用领域越来越广,目前大多数新闻站点的新闻评论都采用了Ajax技术,这些动态评论信息对舆情的收集具有重要意义。基于Ajax技术在新闻领域的应用,本文研究并设计了能够采集Ajax网页信息的主题网络爬虫系统,实现了对新闻站点的新闻信息以及动态评论信息的采集。 首先,研究了Ajax网页动态信息的采集。通过使用浏览器API并模拟用户行为对网页元素进行操作采集Ajax网页的动态信息,基于同一站点同一类型Ajax网页结构相似性特点,在系统采集主题信息前增加预处理阶段。预处理阶段用来查找Ajax网页中的有效触发元素,并对有效触发元素进行规约和模式分类,为采集动态信息制定采集规则。 其次,实现主题信息的采集。系统根据URL的语义特征区分主题信息,结合协议驱动采集与事件驱动采集两种网页信息采集方式完成新闻信息和新闻动态评论信息的采集。 最后,通过实验证明本文所设计的方法对采集新闻站点主题信息是有效的。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 曾伟辉;李淼;;基于JavaScript切片的AJAX框架网络爬虫技术研究[J];计算机系统应用;2009年07期
2 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
3 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
4 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
5 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
6 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
7 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
8 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
9 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
10 燕玫;李春杰;;基于Web2.0社会性标签系统的设计与实现[J];甘肃科技;2008年11期
中国重要会议论文全文数据库 前10条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
3 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
4 王栋;李妍;曹文;;基于AJAX技术的矿区环保信息系统的研究[A];煤矿节能减排与生态建设论坛论文集[C];2009年
5 何松;侯思祖;苏贵波;李璇;;Ajax结合WebGIS在电力通信网资源管理中研究与应用[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
6 苟刚;黄伶俐;;电子地图安全显示算法设计与实现[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
7 李楠;马世龙;;一种基于Ajax的动态树型结构的设计与实现[A];2007中国控制与决策学术年会论文集[C];2007年
8 蔡春源;巢俊杰;杨慧;;基于Ajax技术的Web专题图层的关键技术研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
9 刘翔;沈明玉;;基于SNMP与AJAX的服务监控系统研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国重要报纸全文数据库 前9条
1 Victor;电子邮件跟踪服务面世[N];人民邮电;2004年
2 伍裕标;网络监控STOP![N];中国电脑教育报;2003年
3 王猛祥 徐明华;六度分隔:下一代网络交际[N];中国计算机报;2004年
4 商建刚;当你电子邮件地址被拍卖(上)[N];中国计算机报;2001年
5 记者 郭丽君;封堵涉黄网站3500个[N];光明日报;2010年
6 记者 邵素宏;中移动新型拨测系统“扫黄”显威力[N];人民邮电;2010年
7 马季;网络文学遭遇“版权困境”[N];人民日报海外版;2010年
8 记者 曹莉;泛华北(环渤海)工程信息共享平台功能升级[N];中国建设报;2011年
9 上海 陈曦;谷歌之后,谁来制衡百度?[N];电脑报;2010年
中国博士学位论文全文数据库 前5条
1 詹骞;基于Ajax/REST的GIS WEB服务研究与实现[D];中国地质大学(北京);2008年
2 邓春燕;基于RIA的全景虚拟野外地质信息系统[D];吉林大学;2010年
3 王开宇;Web系统建模及其性能分析[D];燕山大学;2010年
4 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
5 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
2 曾伟辉;支持AJAX的网络爬虫系统设计与实现[D];中国科学技术大学;2009年
3 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年
4 刘双林;LUCENE实现的基于RSS的博客搜索引擎[D];哈尔滨工程大学;2009年
5 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年
6 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年
7 任英杰;基于Web GIS的直放站监控管理系统的研究[D];北京交通大学;2007年
8 张慧武;基于AJAX的音像制品电子商务系统实现[D];复旦大学;2008年
9 刘哲;基于AJAX的富士通EBISS销售管理系统[D];华东师范大学;2008年
10 肖卓磊;基于Ajax技术的搜索引擎研究[D];武汉理工大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026