收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

分布式Web信息采集关键技术研究

许笑  
【摘要】:近20年来,为了应对Web上信息量的不断增长以及信息更新频度的不断提高,Web信息采集系统不断扩大自身规模,其系统结构也从单机到多机,从集中式到分布式逐步演进。至今,分布式系统结构已经成为构建Web信息采集系统的首选方案,而由分布式系统结构所引申出的Web划分问题、任务调度问题和节点协同问题已经成为构建分布式Web信息采集系统的关键技术问题。对这些关键技术问题的深入分析与研究对于提高搜索引擎系统的性能乃至整个Web的可访问性具有重要意义。本文在总结前人工作的基础上,针对分布式Web信息采集系统的若干关键技术问题进行了深入研究。 首先,现有的分布式Web信息采集系统乃至分布式搜索引擎系统都缺乏对系统构建中的最根本要素--系统成本的量化评估,为此,本文提出了一个较为完善的包括分布式Web信息采集系统在内的分布式搜索引擎的成本模型,并利用该成本模型对若干种构建搜索引擎系统的设计方案从系统成本、系统规模和查询响应时间等角度进行了详尽的理论分析。我们发现,由广域网分布式采集系统和多机群索引系统组成的半广域网搜索引擎系统相对于其他搜索引擎系统具有相对较低的成本,同时能够较好的兼顾对用户的服务质量。 之后,针对在分布式环境下如何能够有效降低网页下载时间这一问题,本文对面向网络距离的Web划分算法进行了研究,给出了适用于分布式采集系统的网络距离的度量标准;基于网络距离和网络坐标系统,我们提出了一种新的Web划分算法,并通过实验验证了其在提高系统吞吐量方面的优越性。 针对广域网分布式Web信息采集系统,本文分别在任务调度和节点协同方面提出了若干优化方法:针对Web划分方法在动态调度中的不足,提出了基于任务转发的动态负载均衡算法,避免了采集节点的忙闲不均现象,进一步提高了全系统的吞吐量;针对广域网分布式Web信息采集系统中节点间通信量负载较重的问题,提出通过对Web主机之间链接关系建立坐标模型的方法,实现面向链接关系的Web划分,从而降低了采集节点间通信量中比重最大的链接交换的通信量。 最后,为了兼顾分布式Web信息采集中的健壮性、效率和成本,本文提出了一种基于内容寻址网络的广域网分布式Web信息采集系统,该系统能够利用网络上分布在各处的独立的计算资源,组建一个能够完成Web信息采集功能的覆盖网络,从而为这三个问题提供了有效的解决方案:一方面,内容寻址网络这种P2P协议的采用,使得系统可以随着Web一起扩展和壮大;另一方面,Web划分大幅缩短Web信息采集时间,提高了系统的吞吐量及信息更新频率;同时,根据我们提出的成本模型分析,该系统还能够降低系统成本。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP274.2

免费申请
【参考文献】
中国期刊全文数据库 前3条
1 王晓宇,周傲英;万维网的链接结构分析及其应用综述[J];软件学报;2003年10期
2 王意洁;李小勇;;网络距离预测技术研究[J];软件学报;2009年06期
3 姜誉,胡铭曾,方滨兴,张宏莉;一个Internet路由器级拓扑自动发现系统[J];通信学报;2002年12期
【共引文献】
中国期刊全文数据库 前10条
1 施锋,吴秋峰;网络多层拓扑发现算法的分析[J];兵工自动化;2004年03期
2 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
3 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
4 白斌;刘心松;;一种基于路由路径分析的周边网络区域发现算法[J];成都信息工程学院学报;2008年02期
5 叶琳莉;林嵩凯;;基于Web结构挖掘算法的网站构建[J];电脑知识与技术;2008年34期
6 王梅;;搜索引擎中的web链接算法研究与改进[J];电脑知识与技术;2009年24期
7 谭涛;;高效的动态脚本网页关联性挖掘算法研究[J];电脑知识与技术;2012年13期
8 姜誉,方滨兴,胡铭曾;多点测量Internet路由器级拓扑[J];电信科学;2004年09期
9 孙红杰;方滨兴;张宏莉;;一种新的大规模网络主动预警方法[J];电信科学;2007年01期
10 李江;殷之明;;链接分析研究综述[J];大学图书馆学报;2008年02期
中国重要会议论文全文数据库 前10条
1 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
2 张正娟;高岭;孙建伟;王羽;;基于分布式的多级网络拓扑发现研究[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
3 王全民;王靓;;SkypeNet中超级节点拓扑的研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
4 李英楠;张宏莉;云晓春;方滨兴;;基于网络拓扑的网络安全事件宏观预警与响应分析技术[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
5 姜誉;方滨兴;胡铭曾;何仁清;;大型ISP网络拓扑结构多点测量及特征分析实例[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
6 王晓锋;方滨兴;云晓春;张宏莉;;一种并行网络模拟中的拓扑划分方法[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
7 张冉;卡米力毛依丁;;基于论文参考文献引用分析的专业文献查询库[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
8 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 杨宇航;赵铁军;郑德权;于浩;;基于链接分析的重要Blog信息源发现[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
3 李俊超;面向服务的云会议系统架构及其关键技术研究[D];中国科学技术大学;2011年
4 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
5 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
6 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
7 邓小龙;基于复杂网络分析的新一代电信CRM关键技术研究[D];北京邮电大学;2011年
8 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
9 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
10 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 王芳;基于EVS相似度的邮件社区划分方法研究[D];郑州大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 周阳;内网管理系统关键技术研究与实现[D];哈尔滨工程大学;2010年
4 张士军;基于随机游走的网页协同排序算法研究[D];大连理工大学;2010年
5 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
6 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
7 王辉;路由器级网络拓扑发现技术研究[D];解放军信息工程大学;2010年
8 朱明明;基于IPv6的路由器级拓扑发现技术研究[D];解放军信息工程大学;2009年
9 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
10 杨阳;复杂网络社团划分算法的研究与实现[D];西安电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前5条
1 徐大海,刘新,王奇,白英彩;网络拓扑自动搜索算法研究[J];计算机应用;1999年02期
2 陈硕,安常青,李学农;分布式入侵检测系统及其认知能力[J];软件学报;2001年02期
3 徐斌,王磊,陆月明,邵书毅;基于IP协议TTL的网络拓扑搜索算法[J];微型机与应用;2000年07期
4 张勇,张德运,李钢;网络拓扑发现的主动探测技术的研究和实现[J];小型微型计算机系统;2000年08期
5 徐斌,钱德沛,陆月明,王磊;一种基于抽象点的网络拓扑自动生成算法[J];小型微型计算机系统;2001年04期
【相似文献】
中国期刊全文数据库 前10条
1 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
2 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
3 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
4 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
5 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
6 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
7 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
8 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
9 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期
10 梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期
中国重要会议论文全文数据库 前10条
1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
2 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
8 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
9 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
10 王辉;面向互联网的Web服务基础设施构建和应用[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
2 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
3 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
4 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
5 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
6 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年
7 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
8 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年
9 任强;基于谓词抽象与精化技术的Web服务验证研究[D];苏州大学;2011年
10 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026