收藏本站
《浙江大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

支持AJAX的互联网搜索引擎爬虫设计与实现

罗兵  
【摘要】:网络爬虫是搜索引擎的关键技术之一,近年来,随着Web 2.0的兴起,AJAX技术在Web开发中的大量应用,AJAX使用异步向服务器发送请求的方式,从服务器获取数据后动态修改Web页面内容,导致传统网络爬虫抓取的内容远少于页面呈现的内容,这对搜索引擎查询结果的准确性有很大影响。本文设计实现的AjaxCrawler通过截取AJAX异步请求返回的数据并分析,从而获取更多的页面内容。 该爬虫由网页抓取、网页分析、JS解析、DOM支持、页面生成五部分组成。网页抓取模块通过HTTP请求,获取需要抓取的页面。网页分析模块分析页面元素信息,和传统爬虫不同的是,该爬虫不仅分析页面中的超链接和页面内容,还分析JavaScript文件和代码。JS解析模块执行页面中的JavaScript代码,这些代码中包含AJAX调用,获取从服务器返回的请求内容,得到内容后通过DOM支持模块修改页面内容。最后,页面生成模块利用上—模块的结果重新生成新的页面内容,然后提取新页面中的超链接。 本文最后对AjaxCrawler和传统爬虫抓取结果进行了实验,通过实验,证明了AjaxCrawler在同等条件下抓取AJAX网站的页面内容远多于传统爬虫。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前8条
1 周思思;袁晓红;;社交网络信息采集技术研究与实现[J];电子世界;2012年04期
2 李华波;吴礼发;赖海光;郑成辉;黄康宇;;有效的爬行Ajax页面的网络爬行算法[J];电子科技大学学报;2013年01期
3 王娟;唐宝珍;;基于兴趣的轻博客网站拓扑特性分析[J];电脑知识与技术;2013年22期
4 杨俊峰;黎建辉;杨风雷;;深层网站Ajax页面数据采集研究综述[J];计算机应用研究;2013年06期
5 刘高勇;汪会玲;;基于Ajax的交互式检索[J];情报科学;2008年09期
6 曾伟辉;李淼;曾伟辉;;深层网络爬虫研究综述[J];计算机系统应用;2008年05期
7 马凯;蔡皖东;姚烨;;Web2.0环境下SQL注入漏洞注入点提取方法[J];计算机技术与发展;2013年03期
8 李首胤;;图书馆多媒体教学信息资源知识产权防伪与检测研究[J];现代情报;2013年06期
中国重要会议论文全文数据库 前1条
1 李蕊;魏更宇;王枞;张冬梅;;Rhino解析引擎的分析与改进[A];2010年全国通信安全学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前10条
1 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
2 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
3 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年
4 桂许军;基于JavaEE平台与Lucene的信息文档搜索引擎系统的设计与实现[D];西南交通大学;2011年
5 杨哲;基于Groovy的分布式网络爬虫系统的设计与实现[D];西南交通大学;2010年
6 陈飞;实时垂直搜索引擎的爬虫技术研究[D];大连理工大学;2011年
7 邵旖;基于Ajax模式的Web研究与应用[D];武汉理工大学;2008年
8 白红霞;支持JavaScript解析的网页采集系统设计与实现[D];东北大学;2008年
9 周思思;基于隐马尔科夫模型的网络舆情挖掘[D];中南林业科技大学;2012年
10 乔峰;基于模板化网络爬虫技术的Web网页信息抽取[D];电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前7条
1 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
2 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
3 王丽坤;王宏;陆玉昌;;文本挖掘及其关键技术与方法[J];计算机科学;2002年12期
4 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
5 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
6 徐莹;;搜索引擎技术及其发展前瞻[J];科技情报开发与经济;2005年24期
7 李斌;徐蓉艳;;搜索引擎简析[J];扬州教育学院学报;2006年03期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 李湘云;;ISODATA动态聚类算法在文本挖掘中的应用[J];长春工程学院学报(自然科学版);2007年02期
5 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
6 刘元凤;周荣福;李凤玲;;基于文本的地理空间数据挖掘与可视化[J];测绘科学;2010年04期
7 陈伟平,李义春;浅谈Internet上的材料科技信息资源[J];材料科学与工艺;2001年03期
8 张澎;王鲁达;唐日成;;电子商务中的数据挖掘[J];湘南学院学报;2009年02期
9 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期
10 付涛;;基于背景的Web广泛主题发现方法[J];电脑学习;2010年02期
中国重要会议论文全文数据库 前6条
1 刘雪芹;齐大朝;;基于robot的全文搜索引擎原理剖析[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
2 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 梁循;杨健;陈华;曾月卿;;互联网金融信息搜索[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
6 李鹏;朱青;任安建;胡伟;杜小勇;;支持短语识别的关系数据库关键词查询算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
5 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
6 陈汉华;基于对等网络的大地规模内容检索研究[D];华中科技大学;2010年
7 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
8 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
9 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
10 徐明;对等网络中的查询路由与重构机制[D];复旦大学;2010年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
4 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
5 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
6 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
7 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
8 程淑玉;基于协同过滤算法的个性化推荐系统的研究[D];合肥工业大学;2010年
9 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
10 陈冰泉;面向农产品信息的主题搜索引擎与信息推荐[D];华南理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
3 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
4 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
5 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
6 谌燕;赵定远;;基于AJAX的异步Web开发模式[J];成都大学学报(自然科学版);2007年04期
7 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
8 王平;贾化萍;;C/S和B/S结合模式下应用系统的研究与开发[J];电脑与信息技术;2006年01期
9 方俊;;Ajax引擎的设计和应用[J];电脑与信息技术;2006年03期
10 彭建荣;罗永会;;搜索引擎的基本原理及发展趋势[J];电脑知识与技术;2006年02期
中国重要会议论文全文数据库 前5条
1 李盛韬;吴丽辉;于满泉;潘文锋;余智华;王斌;程学旗;;主题Web信息采集的研究与设计[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 朱鉴;张建;李淼;强静;杨攀;;面向民族语言信息处理的汉语分词方法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 孙宏纲;陆余良;;基于二元切分的互联网新闻主题词自动提取研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国重要报纸全文数据库 前1条
1 本报记者 李淼 赵婷 见习记者 任晓宁 廖小珊;[N];中国新闻出版报;2010年
中国博士学位论文全文数据库 前7条
1 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
2 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
3 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
4 邹军;虚拟世界的民间表达[D];复旦大学;2008年
5 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
6 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
7 石磊;基于数据的学习:埃尔米特算法与黎曼流形上的法向量估计[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年
2 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
3 杨彦光;云南医专图书馆网站安全性探究与技术实现[D];电子科技大学;2011年
4 安伦;基于云平台在线Web挖掘中计算资源动态平衡的研究与实现[D];国防科学技术大学;2010年
5 杨帆;基于开源框架I-CMS系统设计与实现[D];电子科技大学;2011年
6 秦金东;远程医疗保健终端网络模块的研究与实现[D];青岛大学;2011年
7 杜娇;基于Webkit手机浏览器的研究与实现[D];南京邮电大学;2012年
8 陈小宁;Web信息资源获取技术的研究与实现[D];暨南大学;2001年
9 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
10 刘洋;聚合通信算法测试分析与理论研究[D];中国科学院研究生院(软件研究所);2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
2 陈丽君;;深层网查询表单标签识别技术研究[J];电脑开发与应用;2010年02期
3 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
4 马宏伟;;Web应用程序的安全问题及对策[J];计算机光盘软件与应用;2014年03期
5 范纯龙;袁滨;余周华;徐蕾;;基于陷阱技术的网络爬虫检测[J];计算机应用;2010年07期
6 钱程;阳小兰;;一种支持Ajax框架的网络爬虫的设计与实现[J];计算机与数字工程;2012年04期
7 徐耀丽;康慕宁;齐万华;;Ajax技术在远程教育平台中的应用研究[J];计算机与现代化;2012年12期
8 杨俊峰;黎建辉;杨风雷;;深层网站Ajax页面数据采集研究综述[J];计算机应用研究;2013年06期
9 徐宗昌;孙寒冰;朱伟成;李博;;基于IETM的交互式故障诊断模式研究[J];计算机测量与控制;2013年10期
10 褚龙现;;ASP.NET应用中SQL注入攻击的分析与防范[J];计算机与现代化;2014年03期
中国重要会议论文全文数据库 前1条
1 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 张莹;基于语义的分布式服务与资源一体化发现方法研究[D];北京交通大学;2009年
2 王明军;基于Web的空间数据爬取与度量研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前10条
1 焦岩;基于B/S架构的预约挂号系统的设计与实现[D];河北科技大学;2011年
2 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
3 张锐;面向电子商务的深层网入口挖掘研究[D];杭州电子科技大学;2011年
4 郑炯;WEB应用安全漏洞挖掘的研究与实现[D];电子科技大学;2011年
5 李国锋;基于AJAX富客户端的教学支撑服务系统设计与实现[D];北京邮电大学;2011年
6 赵岩;深层网络信息资源集成模式的类型与选择[D];郑州大学;2011年
7 杨哲;基于Groovy的分布式网络爬虫系统的设计与实现[D];西南交通大学;2010年
8 张艳芹;基于Ajax的采砂管理系统的设计与实现[D];华中科技大学;2010年
9 单大甫;基于网络评论的文本倾向性分类技术的研究与实现[D];国防科学技术大学;2010年
10 刘亚鹏;基于MVC架构的电子商务平台的设计与实现[D];华中科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
2 王丽坤;王宏;陆玉昌;;文本挖掘及其关键技术与方法[J];计算机科学;2002年12期
3 庄毅,黎浩宏;搜索引擎技术现状及发展动向[J];计算机时代;2002年08期
4 丁秀锋;浅析搜索引擎的原理和发展趋势[J];内江科技;2005年02期
5 孙玮;中文搜索引擎开发利用策略研究[J];科技情报开发与经济;2005年01期
6 王林;搜索引擎的原理和发展[J];图书馆理论与实践;2004年04期
7 曹军;Google的PageRank技术剖析[J];情报杂志;2002年10期
8 张兴华;搜索引擎未来技术试探[J];情报杂志;2004年08期
9 黄知义,周宁;几类搜索引擎的原理剖析、比较研究及发展趋势探讨[J];图书馆学研究;2005年03期
10 沈贺丹;潘亚楠;邵良杉;;关于搜索引擎的研究综述[J];计算机技术与发展;2006年04期
【相似文献】
中国期刊全文数据库 前10条
1 燕玫;李春杰;;基于Web2.0社会性标签系统的设计与实现[J];甘肃科技;2008年11期
2 谭凌;;comAJAX技术在页面元素间数据关联处理中应用[J];福建电脑;2008年09期
3 程维刚;;基于AJAX体系架构的电力信息资源管理研究[J];中国电力教育;2010年S1期
4 黄辉;;基于Ajax的图书馆投稿系统设计与实现[J];高校图书情报论坛;2010年03期
5 谭胜兰;刘勇生;;Ajax和Hibernate在网页设计中的研究与实践[J];科技经济市场;2011年04期
6 王萍;高宏卿;;AJAX在网络教育软件中的应用研究[J];中国教育信息化;2007年01期
7 欧林宝;杨刚刚;战德臣;陈云鹏;;Ajax与数据绑定技术在管理软件开发中的应用研究[J];电脑开发与应用;2007年09期
8 钟卫铭;;基于AJAX构建网上协作式学习平台[J];科技广场;2007年07期
9 时鸿涛;徐鹏民;王海;吕光杰;;Ajax技术在社区警务管理系统中的设计与实现[J];电脑知识与技术(学术交流);2007年22期
10 钟阳晶;张鹏飞;;基于Ajax的上机考试系统的相关技术研究[J];广东农工商职业技术学院学报;2008年03期
中国重要会议论文全文数据库 前10条
1 王栋;李妍;曹文;;基于AJAX技术的矿区环保信息系统的研究[A];煤矿节能减排与生态建设论坛论文集[C];2009年
2 李楠;马世龙;;一种基于Ajax的动态树型结构的设计与实现[A];2007中国控制与决策学术年会论文集[C];2007年
3 蔡春源;巢俊杰;杨慧;;基于Ajax技术的Web专题图层的关键技术研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
4 何松;侯思祖;苏贵波;李璇;;Ajax结合WebGIS在电力通信网资源管理中研究与应用[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
5 苟刚;黄伶俐;;电子地图安全显示算法设计与实现[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
6 刘翔;沈明玉;;基于SNMP与AJAX的服务监控系统研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 宋冬;铁军;;基于Web服务和AJAX的工业铝电解监测分析系统[A];中国计量协会冶金分会2008年会论文集[C];2008年
8 宋冬;铁军;;基于Web服务和AJAX的工业铝电解监测分析系统[A];2008全国第十三届自动化应用技术学术交流会论文集[C];2008年
9 苏毅;王文力;阎姗;邓峰;;基于Ajax技术信息动态查询的设计与实现[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 郭元;周国祥;;基于Ajax技术B/S体系架构系统的研究与设计[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
中国博士学位论文全文数据库 前4条
1 詹骞;基于Ajax/REST的GIS WEB服务研究与实现[D];中国地质大学(北京);2008年
2 邓春燕;基于RIA的全景虚拟野外地质信息系统[D];吉林大学;2010年
3 王开宇;Web系统建模及其性能分析[D];燕山大学;2010年
4 陶亮;面向水利信息网格的混合式SOA应用技术研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 任英杰;基于Web GIS的直放站监控管理系统的研究[D];北京交通大学;2007年
2 张慧武;基于AJAX的音像制品电子商务系统实现[D];复旦大学;2008年
3 刘哲;基于AJAX的富士通EBISS销售管理系统[D];华东师范大学;2008年
4 肖卓磊;基于Ajax技术的搜索引擎研究[D];武汉理工大学;2009年
5 李志纯;基于.net2.0的E_Learning学习管理系统的研究与开发[D];厦门大学;2009年
6 曾伟辉;支持AJAX的网络爬虫系统设计与实现[D];中国科学技术大学;2009年
7 王道乾;基于AJAX的高校档案管理系统的设计与实现[D];重庆大学;2007年
8 陈宝;基于.NET的科研管理系统及Ajax应用研究[D];华中科技大学;2008年
9 张明;人才派遣信息管理系统的设计与实现[D];西北大学;2007年
10 吴洁;基于ASP的网络教学平台的研究开发[D];华东师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026