收藏本站
《浙江大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

非合作性环境下的P2P搜索技术研究

任祖杰  
【摘要】:为了解决传统集中式搜索引擎所面临的性能瓶颈,研究人员提出将搜索引擎构建于P2P网络之上,通过P2P网络将分散的众多节点联系起来,整合它们的运算能力和存储资源,从而以较低的硬件代价形成巨大的服务性能。P2P搜索引擎的特点是每个节点都是一个独立文档数据库,各节点处于对等地位,不存在中央节点,相互协作地响应查询请求。 目前P2P搜索引擎的实现依赖一个假设:所有节点是合作性的,即所有节点能够按照统一协议返回资源描述、参与维护索引、转发或执行查询等等。通常情况下,这种合作性机制是由每个节点安装一个客户端工具来实现的。然而,Web中有许多站点包含大量高质量的文档,且能够提供站内检索服务,例如新闻网站,论坛,电子图书馆。这些资源节点属于不同的商业公司或机构,难以要求这类节点能够合作地遵照统一协议参与系统的运行。在文献中,这类节点常被称为非合作性节点,包含非合作性节点的运行环境被称为非合作性环境。由于Web中非合作节点数量巨大,整合这类资源将极大地提高搜索引擎的查询质量和效果。 本论文提出一个非合作性环境下的P2P搜索引擎框架,并基于这个框架,深入研究了P2P搜索引擎的关键问题,包括资源描述获取方法,资源选择算法,结果合并算法,索引目录维护机制等,取得了若干研究成果。 具体来说,本文的研究成果包括: (1)本文提出一种非合作性环境下的P2P搜索引擎架构,称为PISA (P2P Information Search with unccoperAtive Peers),实现融合非合作性节点。本文给出PISA的网络拓扑结构、索引目录的数据结构及构建过程、PISA的查询过程。 (2)本文提出一种非合作性环境下的启发式查询采样方法HQBS (Heuristic Query-based Sampling),从非合作性节点中获取资源描述信息。传统的方法是对非合作性节点发起一系列查询,并下载若干结果文档。当采样文档达到一定数量时,停止采样文档。这种方法在P2P环境中容易造成对大节点采样不足和对小节点过度采样。针对这些问题,HQBS方法采用启发式判定采样终止的条件,使得采样文档的数量能够依节点大小而动态调整,尽可能对每个节点都获取高质量的资源描述信息,且不浪费采样资源。 (3)本文提出一种非合作性环境下的兼顾重叠和相关度的资源选择算法OPS (Overlap-aware Peer Selection)。与传统的资源选择算法忽略资源间重叠不同,OPS用于在非合作性环境下,通过对查询结果提取覆盖统计信息,近似地估算出节点资源间的重叠度,实现兼顾重叠和相关度的资源选择算法,提高查询的效率。随着查询的进行,OPS提取的覆盖统计信息越来越全面,OPS能够有效地提高新颖结果的总量。 (4)本文提出非合作环境下的两个结果合并算法RISE/RISE+(Result mergIng in Score-absent Environments),将非合作性节点返回的结果列表合并成单个有序的结果列表。传统的方法依赖各资源节点提供的本地相关度分值(local relevance score),通过一系列的映射规范化等操作,计算得到全局相关度分数。然而,在非合作性环境下,节点在返回的结果时,可能并不附带本地相关度分值。本文提出两种结果合并算法RISE/RISE+,能够在非合作性节点不返回相关度分值的情况下,实现高效的结果合并。实验结果表明,这两种算法的结果合并准确性略高于传统方法。 (5)本文提出一种非合作性环境下的索引目录更新机制CSU,使得索引目录在节点颠簸(churn)和内容演化时保持更新。传张的索引目录更新机制是一种基于生命周期(Time-To-Live, TTL)定时更新。各节点在每隔TTL时间更新索引目录一次。这种方法在各节点颠簸,内容演化速率相差很大时,系统难以选择一个合适的TTL值。如果TTL过大,造成索引目录更新不及时,影响资源选择的准确度;反之,会造成索引目录维护开销过大,影响系统的性能。针对这些问题,本文提出一种更为节约高效的非合作性环境下的索引目录更新机制CSU。CSU基于受控更新原则充分地减小更新索引目录的次数,基于选择性更新原则充分地减小每次更新索引目录的Posts数量,运用基于划分消息的更新方法,减小更新消息在网络的传输开销。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP393.02

【参考文献】
中国期刊全文数据库 前3条
1 杨小敏;国家紧急权宪法条款设计之若干核心问题探讨——以德国法为经验[J];当代法学;2005年05期
2 任祖杰;陈珂;寿黎但;陈刚;贝毅君;李晓燕;;HAPS:Supporting Effective and Effcient Full-Text P2P Search with Peer Dynamics[J];Journal of Computer Science & Technology;2010年03期
3 王彤彤;韩文报;窦勇;;一种基于矢量空间模型的垃圾邮件去重复技术[J];通信技术;2007年12期
【共引文献】
中国期刊全文数据库 前10条
1 陈雅;郑建明;;数字图书馆可持续发展中P2P技术研究[J];国家图书馆学刊;2009年01期
2 詹应键;林家瑞;黄敏;;奇异值分解法对磁共振谱数据的量化研究[J];北京生物医学工程;2007年03期
3 陈雅;郑建明;;基于P2P技术的数字图书馆可持续发展思考[J];图书与情报;2008年06期
4 和锐;杨建思;张翼;;地震层析成像方法综述[J];CT理论与应用研究;2007年01期
5 陈明生,陈乐寿,王天生,白改先;用改进广义逆矩阵方法解释大地电磁测深及电测深资料[J];地球物理学报;1983年04期
6 刘福田;震源位置和速度结构的联合反演(Ⅰ)——理论和方法[J];地球物理学报;1984年02期
7 王自力,张赛珍;一种真复电阻率谱参数的求解方法[J];地球物理学报;1990年06期
8 胡家富,温一波,谢应齐;利用地震面波频散反演岩石圈结构的奇异值分解算法[J];地球物理学报;1998年02期
9 常旭,卢孟夏,刘伊克;地震层析成像反演中3种广义解的误差分析与评价[J];地球物理学报;1999年05期
10 刘伊克,常旭;地震层析成像反演中解的定量评价及其应用[J];地球物理学报;2000年02期
中国重要会议论文全文数据库 前5条
1 ;A Combination of DCT-Based and SVD-Based Watermarking Scheme[A];2004 7~(th) International Conference on Signal Processing Proceedings[C];2004年
2 ZBIGNIEW ISAKOW;;SAFECOMINE INTRINSICALLY SAFE SYSTEM FOR MONITORING OF HAZARDS IN MINES RELATED TO DISTURBANCE OF THE STRATA AND ENVIRONMENT EQUILIBRIUM[A];Controlling Seismic Hazard and Sustainable Development of Deep Mines(Volume 2)[C];2009年
3 孔亮;石磊;孙柏;张岩;;Web评论主流观点提取及不同源数据的对比分析[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 ;Research on Query-based Automatic Summarization of Webpage[A];2009 ISECS International Colloquium on Computing,Communication,Control,and Management Proceedings (VolumeⅠ)[C];2009年
5 Richard D.Miller;Recep Cakir;;Estimation of near-surface shear-wave velocity using multichannel analysis of Love waves(MALW)[A];Near-Surface Geophysics and Geohazards--Proceedings of the 4~(th) International Conference on Environmental and Engineering Geophysics(Volume 1)[C];2010年
中国博士学位论文全文数据库 前10条
1 许娜;时间序列的分形及其混沌分析[D];北京交通大学;2011年
2 李一啸;基于复杂网络和演化博弈理论的社会[D];浙江大学;2010年
3 王树青;海洋平台结构的系统辨识与振动控制技术研究[D];中国海洋大学;2003年
4 邓远北;几类线性矩阵方程的解与PROCRUSTES问题[D];湖南大学;2003年
5 敬荣中;地球物理非线性联合反演方法研究[D];中南大学;2002年
6 杨建国;物探检测公路地质的综合方法研究及其工程应用[D];重庆大学;2005年
7 韩吉韬;面向业务流程的企业内部知识共享机制与支持系统研究[D];天津大学;2004年
8 冉瑞生;一些矩阵计算问题及其在图像识别中的应用研究[D];电子科技大学;2006年
9 刘隽诗;基于CDMA的MIMO-OFDM系统检测算法和多址方案的研究[D];北京邮电大学;2006年
10 冯遵德;Ⅱ类病态系统分析理论及其应用研究[D];山东科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 李春;协同过滤推荐算法的研究[D];湘潭大学;2010年
2 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
3 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
4 范敏敏;企业经营范围字段自动分类方法研究[D];哈尔滨工业大学;2010年
5 陈大熙;OMIM文本中疾病表型相似度挖掘算法研究[D];哈尔滨工业大学;2010年
6 曾静静;基于Map-Reduce构建高效文本聚类系统[D];上海交通大学;2011年
7 黄辉宇;基于神经网络的不良信息实时监测系统研究[D];燕山大学;2003年
8 王学胜;超声层析技术中射线追踪方法的研究与应用[D];中国地质大学(北京);2005年
9 孟帆;分形图像编码加速和纹理分割方法的研究[D];西北工业大学;2006年
10 徐欢;矩阵反问题的总体最小二乘解[D];南京航空航天大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 刘炼;;一种基于P2P网络新技术的分析研究[J];科技信息;2011年18期
2 韩桂明;王军;;面向P2P的安全备份系统的研究[J];硅谷;2011年13期
3 安军科;;P2P技术对校园网的影响及优化策略[J];新西部(下旬.理论版);2011年07期
4 孙洪迪;;一款基于P2P技术的游戏网络引擎的设计[J];北京工业职业技术学院学报;2011年03期
5 陈军章;张伟刚;;P2P网络Windows安全初探[J];电子商务;2011年09期
6 张静;;基于分层编码的流媒体传输技术研究[J];福建电脑;2011年07期
7 范会波;张新有;;基于超级节点的P2P信任模型-TSN[J];微电子学与计算机;2011年09期
8 李彦;王劲林;邓浩江;赵志强;;Private BitTorrent激励机制研究[J];微计算机应用;2011年06期
9 马磊;;浅议防火墙穿透通信技术[J];科技致富向导;2011年23期
10 赵侃;;校园网络P2P流量分析及控制策略研究[J];考试周刊;2011年56期
中国重要会议论文全文数据库 前10条
1 陈天罡;;P2P应用及商务模式[A];四川省通信学会2007年学术年会论文集[C];2007年
2 袁野;王国仁;张莹;;P2P环境下度量空间中的相似查询处理[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 李钧;王新;;P2P存储网络中的冗余维持[A];第15届全国信息存储技术学术会议论文集[C];2008年
4 徐陈锋;奚宏生;江琦;殷保群;;一类分层非结构化P2P系统的随机优化[A];第二十六届中国控制会议论文集[C];2007年
5 唐晨;孙立峰;杨士强;;基于减小切换延迟的P2P流媒体服务器带宽分配研究[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
6 张建标;张涛;;一种基于流量行为的P2P协议识别方法[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
7 杨艳春;孟祥武;;P2P网络服务环境中的节点相似性度量研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
8 张娜娜;;P2P流量识别方法研究[A];江苏省电子学会2010年学术年会论文集[C];2010年
9 张永华;洪锋;李明禄;薛广涛;;个性化的P2P内容搜索系统的设计与实现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
10 蔡文渊;夏添;徐林昊;钱卫宁;周水庚;周傲英;;P2P环境下的视图选择[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 记者 朱周;昆明P2P信贷探秘[N];昆明日报;2011年
2 本报记者 李彦赤;国内P2P信贷热潮再探[N];中国城乡金融报;2011年
3 本报记者 陈嘉颂;P2P:生存还是死亡[N];电脑报;2002年
4 农总行农户金融部 黄迈;P2P小额信贷机制创新及面临问题[N];中国城乡金融报;2009年
5 本报记者 杨庆广;P2P破解移动互联网流量激增难题[N];中国电子报;2009年
6 马莉 撰稿;P2P突破传统网络模式新鲜出炉[N];国际经贸消息;2000年
7 何晶;企业网络应重视P2P流量监控[N];人民邮电;2009年
8 本报记者 王丽娟;P2P信贷试水农村金融“蓝海”[N];中国经济时报;2009年
9 主持人 王汉;P2P网络信贷:如何稳健成长[N];中国城乡金融报;2009年
10 陈代寿;P2P引发企业网革命[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 任祖杰;非合作性环境下的P2P搜索技术研究[D];浙江大学;2010年
2 王广奇;基于P2P框架的数据库网格中若干关键技术的研究[D];东北大学;2008年
3 张小松;P2P蠕虫行为模型及遏制方法研究[D];电子科技大学;2011年
4 陈一帅;P2P流媒体系统能力研究[D];北京交通大学;2010年
5 权义宁;基于L-模糊集的P2P信任模型及应用研究[D];西安电子科技大学;2009年
6 郑伟平;可控P2P流媒体分发关键技术研究[D];华南理工大学;2010年
7 郭良敏;P2P文件共享系统中的副本技术研究[D];中国科学技术大学;2011年
8 冯景瑜;开放式P2P网络环境下的信任管理技术研究[D];西安电子科技大学;2011年
9 贾兆庆;非结构化P2P中搜索算法及信任机制研究[D];上海交通大学;2008年
10 雒春雨;P2P网络借贷中的投资决策模型研究[D];大连理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 冯磊;基于P2P搜索引擎的数据库检索方案研究[D];上海师范大学;2010年
2 易清亮;面向主题的P2P搜索引擎的研究[D];西华大学;2010年
3 杨静;基于用户兴趣的P2P搜索机制研究[D];西安电子科技大学;2010年
4 楚永;P2P服务提供者版权侵权责任研究[D];吉林大学;2010年
5 李薇;非结构化P2P网络搜索算法研究[D];西安理工大学;2010年
6 潘正军;基于激励的P2P非结构化自我优化搜索算法研究[D];太原理工大学;2010年
7 曾家国;基于兴趣域的非结构化P2P搜索算法研究[D];重庆大学;2010年
8 艾松玲;基于网络的P2P蠕虫检测系统的研究与实现[D];东北大学;2008年
9 张娟;基于P2P和流媒体技术的网络教学系统研究[D];解放军信息工程大学;2008年
10 胡晓;P2P技术在内容分发系统中的应用[D];解放军信息工程大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026