收藏本站
《浙江大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

支持AJAX的互联网搜索引擎爬虫设计与实现

罗兵  
【摘要】:网络爬虫是搜索引擎的关键技术之一,近年来,随着Web 2.0的兴起,AJAX技术在Web开发中的大量应用,AJAX使用异步向服务器发送请求的方式,从服务器获取数据后动态修改Web页面内容,导致传统网络爬虫抓取的内容远少于页面呈现的内容,这对搜索引擎查询结果的准确性有很大影响。本文设计实现的AjaxCrawler通过截取AJAX异步请求返回的数据并分析,从而获取更多的页面内容。 该爬虫由网页抓取、网页分析、JS解析、DOM支持、页面生成五部分组成。网页抓取模块通过HTTP请求,获取需要抓取的页面。网页分析模块分析页面元素信息,和传统爬虫不同的是,该爬虫不仅分析页面中的超链接和页面内容,还分析JavaScript文件和代码。JS解析模块执行页面中的JavaScript代码,这些代码中包含AJAX调用,获取从服务器返回的请求内容,得到内容后通过DOM支持模块修改页面内容。最后,页面生成模块利用上—模块的结果重新生成新的页面内容,然后提取新页面中的超链接。 本文最后对AjaxCrawler和传统爬虫抓取结果进行了实验,通过实验,证明了AjaxCrawler在同等条件下抓取AJAX网站的页面内容远多于传统爬虫。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前5条
1 李斌;徐蓉艳;;搜索引擎简析[J];扬州教育学院学报;2006年03期
2 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
3 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
4 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
5 徐莹;;搜索引擎技术及其发展前瞻[J];科技情报开发与经济;2005年24期
【共引文献】
中国期刊全文数据库 前5条
1 王一蕾,林世平;Web文本挖掘三种技术的比较[J];福建电脑;2003年12期
2 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
3 吕冬煜,党齐民;基于文本挖掘的可视化竞争情报提取[J];计算机应用与软件;2005年02期
4 陈朵玲,胡肖锋;基于Web文本挖掘技术的企业竞争情报系统研究[J];情报杂志;2005年06期
5 郑健珍;林坤辉;周昌乐;康恺;;基于本体语义的定题爬虫[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前3条
1 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
2 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 梁循;杨健;陈华;曾月卿;;互联网金融信息搜索[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 李树成;WEB主题检索系统的性能优化设计[D];河北大学;2006年
2 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
3 朱雪刚;基于语义网络的教学资源搜索引擎研究[D];东北师范大学;2006年
4 杨俊柯;RDF推理机制的研究与应用[D];湖南大学;2006年
5 高原;基于浏览行为的用户兴趣量度[D];重庆大学;2006年
6 李新安;基于领域主题的Web信息检索技术研究[D];山东大学;2006年
7 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年
8 杨建学;领域本体构建在学习资源管理中的应用[D];湖南大学;2006年
9 吴海明;基于Lucene的搜索引擎技术的研究与改进[D];暨南大学;2006年
10 瞿亮;基于语义的专业文献学习系统研究与实现[D];湖南大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 方俊;;Ajax引擎的设计和应用[J];电脑与信息技术;2006年03期
2 彭建荣;罗永会;;搜索引擎的基本原理及发展趋势[J];电脑知识与技术;2006年02期
3 薛胜军;倪俊;;基于Ajax的Web应用交互方式的研究[J];电脑知识与技术(学术交流);2007年02期
4 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
5 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
6 吁亮;王命延;;Ajax技术构架及其在Web中的应用[J];计算机与现代化;2007年01期
7 孙彬;王东;李娟;;基于XQuery的Deep Web搜索系统的设计与实现[J];科学技术与工程;2007年16期
8 曹彩凤;基于Web的分布式对象技术[J];微机发展;2003年11期
9 佘名高;王程根;邓浩;李祎;;基于Web2.0的Ajax技术的开发[J];计算机技术与发展;2007年05期
10 王星;潘郁;;基于AJAX技术的Web模型在网站开发中的应用研究[J];微计算机信息;2006年27期
中国硕士学位论文全文数据库 前6条
1 刘海峰;基于AJAX的实时数据分析系统的设计与实现[D];大连理工大学;2006年
2 林叶郁;基于AJAX的网络教学应用系统界面交互性设计[D];浙江师范大学;2006年
3 李静;基于Ajax的电子商务系统研究与实现[D];西安理工大学;2007年
4 白璐;Ajax设计模式下Web开发的研究与应用[D];大连海事大学;2007年
5 杨海东;基于Ajax技术的异步搜索引擎研究与实现[D];南京信息工程大学;2007年
6 耿勇;Web中Ajax应用的研究[D];武汉理工大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
2 庄毅,黎浩宏;搜索引擎技术现状及发展动向[J];计算机时代;2002年08期
3 孙玮;中文搜索引擎开发利用策略研究[J];科技情报开发与经济;2005年01期
4 王林;搜索引擎的原理和发展[J];图书馆理论与实践;2004年04期
5 张兴华;搜索引擎未来技术试探[J];情报杂志;2004年08期
6 黄知义,周宁;几类搜索引擎的原理剖析、比较研究及发展趋势探讨[J];图书馆学研究;2005年03期
7 沈贺丹;潘亚楠;邵良杉;;关于搜索引擎的研究综述[J];计算机技术与发展;2006年04期
8 余少云;如何利用搜索引擎获取信息资源[J];网络安全技术与应用;2005年11期
9 张兴华;搜索引擎技术及研究[J];现代情报;2004年04期
10 王玲,马文庆;搜索引擎技术的现状与展望[J];现代情报;2004年08期
中国重要会议论文全文数据库 前1条
1 李盛韬;吴丽辉;于满泉;潘文锋;余智华;王斌;程学旗;;主题Web信息采集的研究与设计[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国期刊全文数据库 前10条
1 Carol Levin ,伍颖文;驯服文本猛虎[J];个人电脑;1995年09期
2 Jan Ozer ,王艳;即用视频世界:飞机、火车、轮船……[J];个人电脑;1995年07期
3 冯飞燕;搜索引擎:穿透Internet的动力——搜索引擎能做什么[J];电子与电脑;1996年02期
4 ;展馆巡游[J];每周电脑报;1996年02期
5 梁桂霞;;CD在进步[J];每周电脑报;1996年02期
6 ;马力强劲的Web引擎Fast Find[J];每周电脑报;1996年02期
7 ;PC检修有新法[J];每周电脑报;1996年07期
8 ;厂商重视Web开发Internet World展览[J];每周电脑报;1996年08期
9 陈梅华;探索网络信息资源建设的关键技术——建立指引库和自动跟踪[J];情报学报;1997年02期
10 云昌英;智能中文搜索引擎助您网上游[J];电脑;1997年07期
中国重要会议论文全文数据库 前10条
1 傅江南;胡凯;黄韧;薛成;;实验动物专业技术网站系统的建立[A];中国实验动物学会第五届学术年会论文汇编[C];2000年
2 秦拴狮;;因特网上的传统情报检索[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
3 王清勤;何涛;刘向东;郎四维;;暖通空调网站和信息数据库[A];全国暖通空调制冷2000年学术年会论文集[C];2000年
4 沈江;;基于Internet的虚拟企业及电子商务策略[A];第一届国际机械工程学术会议论文集[C];2000年
5 李德成;;从搜索埋设行为谈反不正当竞争法的适用与完善[A];中国律师2000年大会论文精选(下卷)[C];2000年
6 董红斌;苏中滨;;基于Mobile Agent的信息搜索技术[A];全国计算机网络应用年会论文集(2001)[C];2001年
7 尹湛;张钦;王绍棣;;基于内容的多媒体信息检索与MPEG-7[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
8 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 丁山山;陈世平;;智能Agent技术在个性化WEB信息代理中的应用研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
10 怀文杰;吴刚;孙家启;;Web搜索引擎中Mobile Agent动态路由研究[A];全国第十四届计算机科学及其在仪器仪表中的应用学术交流会论文集[C];2001年
中国重要报纸全文数据库 前10条
1 伍裕标;网络监控STOP![N];中国电脑教育报;2003年
2 常文杰;中小企业如何建设自己的网站[N];中国企业报;2004年
3 郑猛;竞价排名专利起纷争[N];中国税务报;2004年
4 ;MP3搜索引擎航母系列歌词的标记,不知名的歌曲也可搜[N];电脑报;2004年
5 ;网页制作一点通[N];电脑报;2004年
6 大力;火狐Firefox,IE的挑战者[N];电脑报;2004年
7 ;写在市场被瓜分之前[N];中国电脑教育报;2004年
8 OOV;视频搜索战烽烟乍起[N];中国电脑教育报;2004年
9 本报记者 许金晶;政府力挺新搜索引擎Accoona国内厂商谨慎欢迎[N];第一财经日报;2004年
10 记者 赵晓勤/北京;3G带动无线搜索引擎市场起飞[N];电子资讯时报;2004年
中国博士学位论文全文数据库 前10条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
3 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年
4 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
5 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
6 胡鹤;本体方法及其时空推理应用研究[D];吉林大学;2004年
7 徐文贤;因特网矿业信息资源及其利用研究[D];中南大学;2001年
8 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
9 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
10 严亚兰;基于语义Web的知识处理研究[D];武汉大学;2005年
中国硕士学位论文全文数据库 前10条
1 何念慈;Internet上的教学资源搜索系统的研究与实现[D];暨南大学;2000年
2 高顺纪;基于Agent的中文多元搜索引擎的研究和开发[D];北京工业大学;2000年
3 高清霞;中文智能搜索引擎的设计与实现[D];北京工业大学;2000年
4 邓京辉;风险投资的探讨与实践思考[D];对外经济贸易大学;2000年
5 黄素珍;并行多元搜索引擎的研究与设计[D];广西大学;2001年
6 杜民;应用神经网络的Internet智能代理的实现[D];暨南大学;2001年
7 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
8 许腾;Solaris下群集中英文搜索引擎的设计和实现[D];电子科技大学;2001年
9 张驰;Web信息获取技术研究与实现[D];西北工业大学;2001年
10 华迎;论电子商务网站信息结构建设[D];对外经济贸易大学;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026