收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于索引的Skyline算法研究

周红福  
【摘要】: 随着信息技术的不断发展和应用的不断深入,数据收集手段越来越丰富,海量存储也越来越普遍。由此,一种新的操作算子—skyline操作被引入了数据库领域,目的是要发现数据集中不被其他点支配的所有点的集合。所谓skyline操作中的支配,是指在数据集中,一个元组的每一属性值都不比另一元组相对应属性值“差”,而且必须至少有一个属性值比另一元组“好”。“差”和“好”并无统一的定义,它根据用户的选择和喜好有不同的语义。 由上述定义可见,skyline操作能够反映目标数据集的整体轮廓且有利于用户查询数据集中感兴趣的目标。然而,传统查询语言各种算子的语义和skyline操作的语义有明显的区别,而且即便组合前者的各种算子也不能高效地解决skyline计算问题。这促使我们必须研究新的高效算法来实现该种操作。近来,skyline计算在集中式数据库、分布式数据库、数据流及分类属性数据集上的良好应用前景,使其成为当前数据库界研究的最热点之一,受到了学术界和工业界的广泛关注。 本文集中研究了基于索引的skyline算法。利用索引技术,分别解决了高维数据集中任意子空间上的skyline计算问题,查询数据集上skyline点输出数目过多的问题以及分类属性数据集上如何高效、动态地算出其skyline的问题。本文主要贡献如下: 1.本文详细分析了在高维数据集中,计算其任意子空间的skyline所面临的困难,并考察了现有算法在处理该问题上的不足。一方面,基于索引的其他skyline算法无法高效处理或者根本不能处理高维空间任意子空间上的skyline计算;另一方面,非索引的skyline算法计算高维空间任意子空间上的skyline时,显得非常低效。在此基础上,本文提出了一个能高效计算高维空间中任意子空间上skyline的方法:CSky(Count the skyline),该算法充分利用了一个新颖的数据结构—InvertS结构的特性。InvertS特性之一是,通过对目标数据集进行排序,存放最可能为skyline点的数据于被优先扫描的位置,使得CSky能够高效、渐进地计算出子空间上的skyline;同时,该结构的特点还在于,计算目标数据集中任意子空间上的skyline都可以通过至多扫描一遍该索引结构来完成。这样,CSky算法不仅拥有其他基于索引的skyline算法在计算固定数据集上skyline时的高效,且使这种高效为所有子空间共享。另外,本文扩展了CSky算法以用来解决高维数据集上其他变异skyline查询。 2.本文针对高维数据集上skyline尺寸通常过大这个较普遍的问题,提出了抽样计算skyline的算法:SSky(Sample the skyline)。抽样skyline计算一方面能够更快地响应用户查询请求,另一方面便于用户从较少的返回结果中迅速地选择自己感兴趣的数据。为此,本文首先提出了高维数据集上“平和点集”的概念,它由各属性值中的最小值比数据集中其他点对应最小值“好”的那些点组成;然后,论证了“平和点集”中最大平和点和skyline点的对应关系,从而转化高维数据集上skyline计算为其任意子空间上的最大平和点计算。此外,通过扫描本文提出的InvertS结构,SSky计算查询数据集上所有子空间的最大平和点仅需线性于数据集势的复杂度,为O(kn+k2~k)(k<<n),文中论证了该结果。这表明SSky计算抽样skyline时,时间开销相当小。同时,理论分析和实验结果更进一步说明,SSky计算所得抽样skyline结果具有较合理的分布性。 3.本文引入了分类属性数据集上两种不同的skyline计算问题:通常意义下的skyline计算和属性值间“序”动态变化时的skyline计算。首先,本文解决了通常意义下,分类属性数据集上的skyline计算问题。为此,我们先论证了分类属性集与格结构的对应关系。利用该对应关系,本文提出了一个基于格的LBS(Lattice-based skyline algorithm)算法来高效处理分类属性数据集上的skyline计算问题。它映射目标数据集上所有数据为格结构中的点,从而转化skyline计算为遍历格中点的运算,这使得时间开销相当小,同时避免了每次skyline计算都需要扫描数据集的弊端。然后,本文考虑了分类属性集上的特点,提出了分类属性上属性值间“序”动态变化时skyline计算问题,即同一属性,其值域上的全序关系因用户喜好不同而动态变化的情况。通过分析属性值上序动态变化和格中点位置关系调整间的对应关系,本文映射“序变化”为格结构中点的调整,进而将分类属性序动态变化时skyline计算问题转化为对调整格进行遍历的过程。此外,本文论证了对分类属性数据集对应格进行遍历,所需时间、空间复杂度分别为O(u2~u)和O(2~u+n),其中n,k,u分别表示数据集的势、维度及编码所有维上相异元所需的最少比特数。据我们所知,该结果远优于直接使用现有skyline算法对分类属性数据集进行skyline计算的性能。 综上所述,本文基于InvertS、格等结构,针对skyline计算中存在的三类问题,分别给出了从概念定义、数据结构构建到skyline算法提出这一系列过程组成的解决方案。所提出的高维数据集上高效skyline算法CSky以及抽样skyline计算方法SSky是对高维数据集上skyline计算技术的有益补充;基于格结构的LBS算法解决了本文在skyline领域提出的新课题:分类属性数据集上动态序的skyline计算。理论分析和实验结果表明,文中所述基于索引的skyline算法在时间、空间复杂度方面相比同类算法具有明显的优势,特别是功能方面(如渐进性、用户友好性等)大大加强。因此,它们非常适合大规模数据集上的在线skyline处理。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 黄丙湖;韩李涛;陈龙;;基于Skyline视频监控系统研究[J];地理信息世界;2010年03期
2 姚鹏君;;基于SkyLine的三维地理信息系统的实现[J];中小企业管理与科技(下旬刊);2009年10期
3 袁存忠;;基于Skyline的福建省三维地理信息公共平台的研建[J];测绘通报;2009年02期
4 朱琳;关佶红;周水庚;;基于结构化对等网络的skyline计算[J];计算机应用与软件;2009年04期
5 曹曦;;基于Skyline的长江三峡三维景观平台的应用探讨[J];今日科苑;2010年20期
6 袁昱纬;;基于Skyline的铁路车站三维信息平台实现研究[J];办公自动化;2010年24期
7 田李;李爱平;邹鹏;贾焰;;更新数据流上的连续Skyline计算[J];计算机工程与科学;2008年05期
8 侯妙乐;刘忠贞;孙维先;;基于Skyline的三维数字校园[J];北京建筑工程学院学报;2008年04期
9 李文慧;杨斌;黄永璘;何立;周涛;;无人机遥感在三维地形建模中的应用初探[J];气象研究与应用;2008年04期
10 黄丙湖;韩李涛;孙根云;陈龙;;三维GIS与视频监控系统的集成与应用研究[J];测绘通报;2011年01期
11 王海鹰;张新长;康停军;;面向城市规划的虚拟景观建设方法的探讨与应用[J];测绘通报;2011年03期
12 徐占华;梁建国;;基于Skyline的最短路径分析算法设计与实现[J];城市勘测;2008年04期
13 张宇杰;胡伍生;王骢;徐君民;;无锡变电所三维地理信息系统的开发与实现[J];测绘科学;2009年S2期
14 张峰;李昊倩;刘金;李四海;;数字海洋可视化系统研究与实现(英文)[J];Marine Science Bulletin;2011年01期
15 王贵武;解智强;李世强;高忠;;利用海量探测数据实现昆明市地下管线三维建模的应用研究[J];测绘科学;2009年06期
16 欧阳树生;李金玖;覃明贵;朱扬勇;;RISQ:一种高效处理概率数据流上Skyline查询的算法[J];计算机应用与软件;2009年12期
17 王爱国;刘春雷;胥存华;;3D GIS技术在国土资源信息管理中的应用[J];现代测绘;2007年02期
18 杨婧;吴元锡;李翠平;陈红;;时间控制关系分析:一种角转换的方法(英文)[J];计算机科学与探索;2009年06期
19 黄丙湖;韩李涛;陈龙;;视频监控与3DGIS的集成与应用[J];计算机工程与设计;2011年02期
20 李宏静;王建力;霍晓斌;李开明;;基于VRGIS的数字石油的构建——以长庆油田第四采油厂为例[J];地矿测绘;2009年01期
中国重要会议论文全文数据库 前10条
1 葛洪涛;;基于Skyline的三维地理信息系统研究与设计[A];第二届“测绘科学前沿技术论坛”论文精选[C];2010年
2 刘剑;张应裕;王东博;周正玉;余建平;;基于Skyline的数字三维国土资源辅助决策系统设计与研发[A];广东省测绘学会第九次会员代表大会暨学术交流会论文集[C];2010年
3 李金玖;熊贇;朱扬勇;;不确定数据集上的k-Skyline查询[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
4 廖再飞;罗雄飞;吕新杰;李新;刘伟;王宏安;;一种面向不完整数据流上的k-支配skyline查询算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 唐桢;张新长;曹凯滨;;基于Skyline的三维技术在城市规划中的应用研究[A];广东省测绘学会第九次会员代表大会暨学术交流会论文集[C];2010年
6 吴元锡;杨婧;李翠平;陈红;;DC-Tree:一种数据流上的Skyline查询算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
7 赵连钧;;基于Skyline的高速公路3D GIS系统开发[A];中国公路学会计算机应用分会2010年学术年会论文集[C];2010年
8 杨永滔;王意洁;;基于约束分析的Skyline属性相对重要性发现算法[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
9 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
10 张光伟;羌鑫林;赵建崇;;SketchUp配合下的Skyline快速三维运用[A];江苏省测绘学会2007'学术年会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 王晓伟;基于概率数据库的偏好查询研究[D];国防科学技术大学;2011年
2 班鹏新;标记立方体技术研究[D];华中科技大学;2012年
3 史恒亮;云计算任务调度研究[D];南京理工大学;2012年
4 文世挺;服务组合的选择、验证及其评价机制研究[D];中国科学技术大学;2012年
5 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
6 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
7 陈楠;时空数据库中移动对象的索引和查询技术研究[D];浙江大学;2010年
8 沈海澜;无线传感器网络数据查询关键技术研究[D];中南大学;2011年
9 黄健美;高维数据索引及其查询处理技术研究[D];东北大学;2009年
10 贵向泉;海量信息的极大点查询算法优化及应用研究[D];兰州理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 胡清兰;路网中基于位置的多源Skyline查询研究[D];华南理工大学;2012年
2 罗帅伟;基于Skyline的城市三维地理信息系统的设计与实现[D];西安科技大学;2012年
3 吕玲红;无线传感器网络中的Skyline查询研究[D];宁波大学;2012年
4 宋世凯;基于Skyline的城市三维地理信息系统的设计与研究[D];河北师范大学;2012年
5 张强;一种不确定数据集合上的概率Skyline查询算法[D];兰州大学;2013年
6 柳晴;反skyline查询及变体处理研究[D];浙江大学;2013年
7 黄子晴;Skyline查询处理在文献检索排序中的应用研究[D];西安电子科技大学;2012年
8 樊明锁;分布式环境下面向移动对象的Skyline查询[D];宁波大学;2013年
9 刘兴庭;传感网中不确定性Skyline查询处理研究[D];湖南师范大学;2014年
10 张恺;不完整数据流上k-支配Skyline算法的研究[D];兰州大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978