收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

P2P环境下排序查询处理和分类技术的研究

孙永佼  
【摘要】:随着计算机技术、网络技术和数据库技术的快速发展,如何存储和管理在网络中的海量数据是计算机领域的一个重要问题。P2P模型是一种新型的体系结构模型,其中的每个成员都可分享数据、存储以及计算资源。在数据管理、搜索引擎、数据流管理、语义网等领域具有广阔的应用前景。近年来,P2P数据管理技术已成为当前数据库领域研究的热点,而不确定数据查询处理技术以及数据挖掘技术更是目前P2P数据管理技术的核心问题。现有的相关处理技术主要采用集中式处理方式,无法适应P2P网络等分布式环境,为此本文紧紧围绕P2P环境下不确定数据查询处理技术以及数据挖掘相关技术问题展开深入研究。 本文从P2P网络的拓扑结构出发,提出一些P2P环境下不确定数据相关查询的解决方法。此外,本文针对P2P环境下数据的分类问题进行了研究,并提出了基于已知分类器(OS-ELM)的分类算法。具体研究工作如下: 针对“结构化P2P网络下不确定数据的top-k查询”: 本文首先给出了在不确定数据集上的top-k查询的定义;然后,以chord拓扑为例阐述了在P2P环境中对不确定数据的top-k查询处理算法,并且在保序散列的基础上提出了基于upper-bound的剪枝策略及逐步合并的剪枝策略;最后,通过大量的实验来验证了本文所提出算法的性能。 针对“非结构化P2P网络下基于索引的不确定数据查询”: 本文对在P2P网络的不确定数据的top-k查询提出了基于Quad-tree索引的查询算法。本文在一个水平分布的super-peer网络中对不确定数据进行top-k查询。在super-peer网络中,每个节点基于Quad-Tree来索引本地的不确定数据(UQ-Tree),而每个节点将索引数据的概要信息发送到super-peer中,super-peer利用这些概要信息建立索引,所有的super-peer再通过相互共享索引信息而构成一个全局索引。最后基于全局索引进行两步的处理框架,空间剪枝spatial-pruning和分布式剪枝distributed-pruning。实验表明空间剪枝算法减少了大量的网络通信代价,而分布式剪枝算法降低了大量的计算代价。 本文对在P2P网络的不确定数据的KNN查询提出基于P2PR-tree索引的查询算法。本文基于现有的集中式的不确定数据的KNN查询方法,提出了一种在P2P环境中对不确定数据的KNN查询方法。该方法在super-peer的网络拓扑结构的基础上,以一种扩展的R树(P2PR-tree)作为此查询算法的空间索引结构,解决P2P环境中对多维数据的索引。并且结合两种剪枝策略减少了候选集的大小和查询在P2P网络中的网络代价。实验结果表明,该方法在减少网络代价方面具有较高的性能。 针对“非结构化P2P网络下基于概率的不确定排序查询”: 本文首先利用Quad-tree构建一个分布式的不确定数据的索引,并基于索引提出了一个空间剪枝算法。然后,根据局部top-k概率与全局top-k概率之间的关系提出不确定数据成为top-k概率的上界,根据top-k概率与skyline概率之间的关系提出不确定数据成为top-k概率的下界,通过两种概率剪枝算法来减少top-k查询在网络中的传输和计算代价,并且进一步减少候选集大小。最后本文采用采样的方法来计算候选集的top-k概率以确定最终的top-k查询结果。大量的实验验证了算法的有效性。 针对“P2P网络下在线数据分类”: 本文提出了一个基于OS-ELM的集成分类框架来对分层次的P2P网络中的数据进行分类操作。这个框架是利用OS-ELM的增量学习原理在P2P网络中生成一个系宗分类器。其中包括两个实施方法, one-by-one集成分类方法和parallel集成分类方法。此外,本文还提出了一个基于数据空间覆盖的网络节点选择的方法来减少在分类过程中产生的通信代价和计算代价。实验结果说明本文提出具有较高的效率和效力。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期
2 周逊;李建中;石胜飞;;不确定数据上两种查询的分布式聚集算法[J];计算机研究与发展;2010年05期
3 徐雪松;;时间序列不确定数据流中异常数据检测方法[J];电子设计工程;2011年19期
4 徐雪松;李玲娟;郭立玮;;基于优化策略的不确定数据流预测方法[J];计算机工程;2011年21期
5 徐雪松;沈红红;陶帆;胡晓璐;崔伟;;基于小波分析的不确定数据流异常数据检测[J];软件导刊;2011年11期
6 钱江波;王志杰;陈华辉;王海斌;;不确定数据流自适应并行连接算法及应用[J];电信科学;2012年02期
7 向剑平;乔少杰;胡剑;;基于不确定数据理论的道路相关度度量方法[J];计算机工程与设计;2012年06期
8 曹振丽;孙瑞志;李勐;;面向不确定数据的农产品追溯方法[J];农业机械学报;2013年07期
9 蒋涛;高云君;张彬;周傲英;乐光学;;不确定数据查询处理[J];电子学报;2013年05期
10 王爽;杨广明;朱志良;;基于不确定数据的频繁项查询算法[J];东北大学学报(自然科学版);2011年03期
11 王意洁;李小勇;祁亚斐;孙伟东;;不确定数据查询技术研究[J];计算机研究与发展;2012年07期
12 陈爱东;刘国华;肖瑞;万小妹;石丹妮;;均匀分布下不确定数据的关联规则变粒度查询[J];计算机工程与科学;2013年10期
13 胡健;苏书宾;毛伊敏;;高维不确定数据高效聚类算法[J];电脑知识与技术;2014年04期
14 刘卫明;杨健;毛伊敏;;基于约束的不确定数据频繁项集挖掘算法研究[J];计算机应用研究;2012年10期
15 陈爱东;刘国华;费凡;周宇;万小妹;貟慧;;满足均匀分布的不确定数据关联规则挖掘算法[J];计算机研究与发展;2013年S1期
16 张晨;金澈清;周傲英;;一种不确定数据流聚类算法[J];软件学报;2010年09期
17 杨金伟;王丽珍;陈红梅;赵丽红;;基于距离的不确定数据异常点检测研究[J];山东大学学报(工学版);2011年04期
18 杨雷;赵春晖;廖艳苹;杨莘元;;基于多源不确定数据融合的研究[J];弹箭与制导学报;2007年03期
19 赵娟;王明春;李小亮;;基于不确定数据决策树分类算法的软件外包评价模型[J];天津职业技术师范大学学报;2011年03期
20 邓慧挺;毛宇光;;不确定数据的重复记录检测[J];计算机技术与发展;2012年08期
中国重要会议论文全文数据库 前7条
1 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
4 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前7条
1 汤克明;不确定数据流中频繁数据挖掘研究[D];南京航空航天大学;2012年
2 梁春泉;不确定数据流分类算法研究[D];西北农林科技大学;2014年
3 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
4 董俊;不确定数据中数据挖掘方法的研究[D];燕山大学;2012年
5 孙永佼;P2P环境下排序查询处理和分类技术的研究[D];东北大学;2012年
6 王爽;不确定数据流频繁模式挖掘算法研究[D];东北大学;2013年
7 王晓伟;基于概率数据库的偏好查询研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 李雪;不确定数据聚类研究[D];大连理工大学;2009年
2 周逊;不确定数据聚集查询的分布式处理算法[D];哈尔滨工业大学;2009年
3 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
4 刘明建;不确定数据的代价敏感决策树分类器研究[D];西北农林科技大学;2012年
5 邓慧挺;不确定数据的重复检测及清洗研究[D];南京航空航天大学;2012年
6 夏菁;基于可信度计算的不确定数据起源研究[D];南京航空航天大学;2012年
7 宋明;基于密度的不确定数据流聚类算法的研究与实现[D];东北大学;2011年
8 王莹莹;基于密度的不确定数据聚类研究[D];长春工业大学;2013年
9 苏书宾;不确定数据聚类研究[D];江西理工大学;2014年
10 覃香菊;不确定数据上的关联分类器[D];西北农林科技大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978