收藏本站
《华中科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于对等网络的大地规模内容检索研究

陈汉华  
【摘要】:随着网络技术的迅猛发展和网络应用的迅速普及,互联网日益形成一个巨大的分布式信息库。互联网应用产生的超大规模信息对现有的网络数据管理基础设施提出了新的严峻挑战。互联网信息库的无限扩张性和与生俱来的分布式特性使研究非集中式的数据管理和共享机制成为一种必然趋势。基于分布式技术的大规模内容检索研究具有重要的学术价值和应用价值。 对等网络(Peer-to-Peer Network,简称P2P)打破了传统的“客户机/服务器”模式,以“自主、平等”的原则将处于网络边缘的计算、存储、通信、信息等各种资源高效地共享起来,形成分布式的协作网络。对等计算模型凭借其分布式、易扩展、容错性高等优点,日益在互联网信息共享方面显示出巨大潜力。 然而,对等网络的分布式、动态性、异构性等特性,又给基于对等网络的大规模内容检索带来了巨大的挑战。首先,虽然分布式哈希表技术使现有的对等网络系统能准确、快速地定位全局数据对象,但分布式哈希映射的精确性与用户查询语义多样性的矛盾,却是构建大规模对等网络内容检索系统带来难以突破的瓶颈;其次,由于缺乏集中的索引服务器,传统集中式信息检索的模型、算法和技术在分布式对等网络环境下无法适用。 大规模分布式内容检索系统的核心问题,即如何建立高效的分布式索引以支持大规模网络环境下的复杂内容检索,在国际学术界至今并没有有效解决。基于对等网络的大规模内容检索是一个极具挑战性的开放性课题。 本文从这一核心问题出发,通过扩展传统对等网络的概念、结构、资源描述与组织、资源发现与路由、结果融合与排序等,在大规模对等网络内容检索方面作了一系列研究,提出了一套行之有效的新理论、新方法,全面、深入、系统地论述了利用对等网络构建大规模分布式文本内容检索系统的解决方案和关键技术。 具体来说,本文主要提出了以下创新性理论或方法: 1.分布式集合运算布隆滤波优化理论及其多关键字搜索协议:基于传统的分布式哈希表全局索引,进行多关键字搜索,需要在广域网上进行分布式集合运算,这将给系统带来难以接受的网络开销。本文针对此难题,提出了一套针对分布式集合运算的布隆滤波优化理论,并基于此优化理论设计了一种高效的多关键字搜索协议PWEB。在美国国家标准研究院发布的TREC WT10G大规模文本检索测试集以及主流商业Web搜索引擎的查询日志上对PWEB进行了大规模的模拟测试。实验结果表明,相对现有结构化对等网内容搜索协议,PWEB协议将查询所需的网络流量显著降低了73%,同时将查询延迟降低了41%。 2.多维分布式哈希表技术及其全文索引、检索及排序策略:提出一种新颖的多维分布式哈希表技术用于更高效的支持全文索引和检索,并设计了一种分布式多维索引剪枝算法TSS。基于TREC WT10G数据集和主流商业搜索引擎查询日志的大规模实验结果表明,TSS显著地将分布式多维索引空间复杂度从O(2n)降低到了O(nlog n);将查询网络流量降低到现有算法的28%;大规模实验结果同时显示TSS算法获得了与传统集中式信息检索算法相当的检索质量和性能。 3.基于语义拓扑的联邦式搜索策略:基于自主开发的P2P文献共享平台SemreX,证实了对等网内容共享网络中的“兴趣局部性”原理,基于此原理提出一种结点内容相似性度量模型,并采用此模型将对等网络中的相似结点聚集起来形成语义覆盖网络,同时进一步探索了如何利用“small world”特性改进语义覆盖网络的拓扑属性。对提出的算法进行的全面仿真测试结果显示基于语义覆盖的SemreX联邦式搜索协议将传统无结构搜索协议的总体性能提高了81.6%。 4.难度感知的混合式对等网络搜索协议:通过结合结构化DHT和无结构对等网搜索协议各自的优点,混合对等网搜索策略能有效提高对等网系统的检索效率。混合对等网搜索策略的关键问题是如何高效估计网络中拥有与查询相关数据的结点的数量,并据此选择最优的查询搜索策略。现有研究基于这样的假设:如果网络中与某查询匹配的相关数据很多,则这些数据广泛地分布在网络中,对此查询使用无结构搜索协议更有效;反之,则采用分布式哈希表查找更有效。从“兴趣局部性原理”出发,指出前人的研究假设并不成立,与查询匹配的大量数据往往聚集在少量结点上,而使无结构搜索协议效率显著降低。并进一步提出了一种查询难度感知(Difficulty-aware)的混合搜索协议QRank,它能够根据查询关键字在网络中出现的频率等统计信息有效预测各种搜索策略针对此查询的搜索效率,并智能地选择高效的搜索策略。基于Gnutella网络的真实拓扑和查询跟踪数据对QRank的协议进行了大规模全面的系统仿真测试。实验结果表明QRank混合搜索协议显著地提高了混合对等系统的搜索性能。相对于现有混合搜索协议,QRank将系统查全率提高了21%,将查询延迟降低了26%,同时将查询产生的平均网络流量降低了40%。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前4条
1 凌波,陆志国,黄维雄,钱卫宁,周傲英;PeerIS:基于Peer-to-Peer的信息检索系统[J];软件学报;2004年09期
2 綦宏伟,代亚非,李晓明;针对访问成功率的P2P动态网络对象定位模型[J];软件学报;2005年05期
3 欧中洪;宋美娜;战晓苏;宋俊德;;移动对等网络关键技术[J];软件学报;2008年02期
4 方启明;杨广文;武永卫;郑纬民;;基于P2P的Wleb搜索技术[J];软件学报;2008年10期
【共引文献】
中国期刊全文数据库 前10条
1 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
2 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
3 刘婷婷;;基于支持向量机的水稻纹枯病识别研究[J];安徽农业科学;2011年28期
4 高闯;王立东;周世宇;;基于支持矢量机的宫颈细胞分类[J];辽宁科技大学学报;2009年03期
5 苑立娟;汪涛;;基于SSH架构的3G教务管理系统的研究与设计[J];保定学院学报;2010年03期
6 汪廷华;田盛丰;黄厚宽;廖年冬;;样本属性重要度的支持向量机方法[J];北京交通大学学报;2007年05期
7 尚磊;刘风进;;基于支持向量机的手写体数字识别[J];兵工自动化;2007年03期
8 胡淑燕;郑钢铁;;应用支持向量机的眼睑参数疲劳预测[J];北京航空航天大学学报;2009年08期
9 王自强;段爱玲;张德贤;;基于自适应核函数的支持向量数据描述算法[J];北京化工大学学报(自然科学版);2008年02期
10 陈增照;杨扬;董才林;何秀玲;;支持向量机动态学习方法及其在票据识别中的应用[J];北京科技大学学报;2006年02期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
6 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
7 ;Image Classification with Ant Colony Based Support Vector Machine[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
9 刘英林;刘洪鹏;査星云;宋扬;;基于SVM的热轧钢卷性能分析[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
10 戴明洋;杨大利;徐明星;;语音情感识别中UBM训练集的组成研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
4 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
5 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
6 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
7 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
8 刘建明;古代壁画图像保护与智能修复技术研究[D];浙江大学;2010年
9 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
10 李卓;图像信息隐藏与隐写分析算法的研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
4 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
5 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
6 张伟;P2P系统中资源搜索定位机制的研究[D];哈尔滨工程大学;2010年
7 陆子海;分层超级结点MP2P资源定位与分发研究[D];哈尔滨工程大学;2010年
8 方宇;小波支持向量机在交通流预测中的应用研究[D];大连理工大学;2010年
9 梁怀志;基于嵌入式的车型分类系统的设计与实现[D];大连理工大学;2010年
10 李林;基于可靠性的TBM刀盘轻量化设计[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前3条
1 程久军;李玉宏;程时端;马建;;移动P2P系统体系结构与关键技术的研究[J];北京邮电大学学报;2006年04期
2 刘琼;徐鹏;杨海涛;彭芸;;Peer-to-Peer文件共享系统的测量研究[J];软件学报;2006年10期
3 邱彤庆;陈贵海;;一种令P2P覆盖网络拓扑相关的通用方法[J];软件学报;2007年02期
【相似文献】
中国期刊全文数据库 前10条
1 薛广涛,尤晋元,贺小箭;基于移动对等网络稳定组运动模型的研究[J];计算机研究与发展;2003年12期
2 李振武,杨舰,白英彩;对等网络研究及其挑战[J];计算机应用与软件;2004年02期
3 庄雷,潘春建,郭永强;大规模对等网络的连接控制管理[J];计算机应用研究;2004年11期
4 谢东亮,程时端,阙喜戎;对等网络的研究与进展[J];中兴通讯技术;2005年02期
5 张书钦;芦东昕;杨永田;;对等网络中基于信任的访问控制研究[J];计算机科学;2005年05期
6 龚成刚,汪会玲,何静;对等网络模式运营发展探析[J];情报杂志;2005年02期
7 朱晓姝;周娅;黄桂敏;;对等网络仿真模型研究[J];桂林电子工业学院学报;2006年02期
8 闻立欧;杜亚辉;;基于模式驱动的通用对等网络应用和服务管理系统[J];北京工商大学学报(自然科学版);2006年02期
9 徐缓;占传杰;;对等网络中应用“最大聚集度优先”算法查询信息及其优化[J];计算机与现代化;2007年02期
10 蒋俊杰;汪为农;;基于主成分分析的对等网络邻近标识符选择[J];上海交通大学学报;2007年01期
中国重要会议论文全文数据库 前10条
1 梁克;;对等网络技术的研究[A];江苏省通信学会2004年学术年会论文集[C];2004年
2 王东升;;浅谈P2P技术发展对网监工作带来的影响及对策[A];第二十次全国计算机安全学术交流会论文集[C];2005年
3 马晓梅;刘莹;;P2P及其对网络传播的影响[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
4 汤筠;张萌;孙立峰;杨士强;钟玉琢;;基于多发送结点的对等网络流媒体组播结构[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 李文清;张常有;段淑凤;;一种分布式Web服务内容的匹配方法研究[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
6 赵葆华;林海旦;陈海永;;移动对等网络数据检索新方法研究[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
7 任潇;董剑;刘宏伟;李洋;杨孝宗;;对等网络中基于失效规律的自适应失效检测器研究[A];第十四届全国容错计算学术会议(CFTC'2011)论文集[C];2011年
8 韩丽;雷振明;;对等网络的资源查找机制[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
9 励铮;李卫明;;基于对等网络的公共密钥基础设施信任模型[A];浙江省电子学会第七次会员代表大会暨2007学术年会论文集[C];2007年
10 陶九阳;魏祥麟;张东戈;刘浩;;基于间接互惠的P2P激励机制研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
中国重要报纸全文数据库 前10条
1 ;竞开协同之星(GK-Star)独特的网络技术架构 扩展对等网络[N];中国计算机报;2004年
2 庄林;企业需要什么样的商用网络?[N];中国电力报;2002年
3 ;Web2.0的典型应用[N];人民邮电;2008年
4 本报记者 姜波;P2P,迈进企业的未来[N];网络世界;2001年
5 刘宇红;利用SBS改造对等网络[N];中国计算机报;2001年
6 晴雪;打造真正的入门级无线打印解决方案[N];国际商报;2005年
7 朱冰;HP无线打印缔造企业办公室的自由国度[N];中国高新技术产业导报;2005年
8 本报记者 刘春辉;管理与应用——IPv6面临的最大挑战[N];人民邮电;2003年
9 上海交通大学金桥网络工程中心 李振武 白英彩;影响Internet未来的对等网络(P2P)[N];计算机世界;2002年
10 郭莹;点击科技综合·协同·对等[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 余一娇;基于文件复制的对等网络搭便车抑制技术研究[D];华中科技大学;2009年
2 杨舰;对等网络有效搜索机制研究[D];复旦大学;2004年
3 韩定一;对等网络的社区模型及其在搜索中的应用[D];上海交通大学;2007年
4 彭浩;复杂对等网络系统中安全机制的研究[D];上海交通大学;2012年
5 王春枝;对等网络中节点合作激励机制研究[D];武汉理工大学;2013年
6 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
7 卢苇;对等网络分组搜索算法研究[D];四川大学;2006年
8 郭磊涛;对等网络中信任感知的资源交易模型[D];中国科学技术大学;2007年
9 陈汉华;基于对等网络的大地规模内容检索研究[D];华中科技大学;2010年
10 黄国伟;对等网络中服务可用性问题研究[D];南开大学;2009年
中国硕士学位论文全文数据库 前10条
1 张燕;对等网络中搭便车行为的分析与抑制机制[D];曲阜师范大学;2009年
2 葛建清;异质结构化对等网络动态副本访问负载均衡策略研究[D];华东师范大学;2010年
3 刘凤鸣;基于对等网络的带虚假反馈检测的声誉系统[D];湘潭大学;2006年
4 单体江;基于激励机制的对等网络搜索技术研究[D];中国海洋大学;2011年
5 严远亭;基于语义社区的移动对等网络资源发现方法研究[D];安徽师范大学;2012年
6 林鹏;结构化对等网络资源搜索的研究[D];北京邮电大学;2006年
7 刘简达;对等网络的安全分析及攻击技术研究[D];上海交通大学;2010年
8 慕宇琪;结构化对等网络中基于访问热点的负载均衡策略研究[D];北京邮电大学;2010年
9 邵一峰;结构化对等网络中负载平衡技术研究[D];上海交通大学;2007年
10 张超;对等网络直播服务中媒体数据分发与管理策略的研究[D];华中科技大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026