收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

图数据库查询处理技术的研究

张硕  
【摘要】: 作为一种通用的数据结构,图可以用来表示数据对象之间的复杂联系。例如:图可以表示化合物的分子结构,蛋白质交互网络,社会网络等。随着科学与工程领域中图数据的大量出现和累积,图数据管理已成为数据管理领域一个重要和热点研究的子领域。图数据库查询处理是其中最重要的研究分支之一,其对图相关的绝大部分处理和应用(例如:图挖掘、化学数据库PubChem)起着基础支撑作用。本文主要对图数据库中的查询处理技术进行深入研究,归纳总结了现有研究成果的主要思想和优缺点,提出了一些新的图数据库查询处理方法,主要研究成果如下: 1.提出一种图数据库中高效处理超图包含查询的新方法。新方法综合的从图数据库的压缩组织、构造有效的特征索引以及基于压缩组织来处理查询三个方面着手考虑问题。(1)在图数据库的压缩组织方面,提出图数据库的有效组织方法,以提高整体查询处理效率。现有的采用过滤-验证机制的方法将图数据库中的图逐个的独立存放。提出方法将图数据库中图结构化的压缩组织起来。通过压缩组织方法,产生一个逻辑数据结构GPTree,其中记录了数据库中图的公共子图的信息。为了优化的构造GPTree,形式化定义了最优诱导子图选择问题;证明了其是一个NP难问题,并提出了一个近似比为2的近似算法。(2)在构造有效的特征索引方面,提出高效而不依赖于历史查询的子图索引特征生成方法,以及两种索引结构CRGraph和FGPForest。首先基于分析,给出索引特征的显著性度量。提出了找出所有显著性不小于用户需求的索引特征的方法,即精确索引特征生成方法。为了适应需要更加快速的生成索引的应用场景,提出了特征索引构造的一个近似方法。这两种方法都是基于图模式挖掘的方法。为了高效使用索引特征,对索引特征进行排序;并且基于理论分析给出了求解其最优排序的算法。(3)在基于压缩组织来处理查询方面,提出从多个图到一个图的子图同构检测的新方法,称为GPTreeTest。现有方法逐个的考察每个图对进行检测,新方法能够利用压缩组织中公共子图的信息,显著减少对多个图的子图同构检测的总时间。最后,在真实数据集和合成数据集上的实验结果表明,提出方法比目前最好方法高效1至2个数据量级。 2.提出不确定图数据库上概率top-k子图匹配查询的新问题、以及一种查询处理方法。首先给出不确定图数据模型,结合现实需求提出概率top-k子图匹配查询问题。一个顶点的邻居子图是由其距离不大于给定阈值内的所有顶点和边构成的子图。基于图结构空间相关性的特点,以附带概率信息的邻居子图为基础,设计一种有效的索引结构NG-Index。NG-Index索引可以很容易实现于成熟的关系数据库中,具有强健壮性。提出一种高效的基于搜索树的算法来进行查询处理。其中运用了一种概率剪枝技术来提高性能。最后通过实验考察并证实提出方法具有良好的效率和可扩展性。 3.提出结合概念分层的图统计信息定义以及查询处理方法。具体地说,给出了结合顶点关联的概念分层,根据用户指定的搜索兴趣来高效地计算数据图中统计信息的方法。首先提出一种结合概念分层的图统计分布表示。本文将用户搜索兴趣建模为概念图,并以用户概念图的子图匹配计数为基础来表示图统计信息。其次,为了高效计算此统计分布信息,设计了一种基于子图密度的索引结构并提出两阶段的计算方法: (1)先基于索引快速地去除数据图中的不相关边并将数据图打散划分为若干小尺寸的连通图;(2)再对这些连通小图分别计算统计信息,最后合并得出结果。在连通小图上计算统计信息的核心是概念图的子图匹配计数问题。文中针对这个子问题着重提出两种高效算法:前向计算算法和后向计算算法。这种在精确计算之前将数据大图快速打散为多个小图的分治思想是总体效率提升的关键所在。最后,在真实数据集上的实验结果表明所提出方法具有良好的效率和可扩展性。 4.提出了一种较大尺寸的标签图子图同构检测方法及其应用方法。所提出的检测方法是一种基于搜索的方法。本文从标签图的特性出发,以标签信息和图拓扑结构相结合的方式来缩减搜索空间。首先,将标签按照出现的频率比转换为数值。然后,将标签信息与结构相结合,来构造多组细粒度的顶点不变量。顶点不变量是关于顶点的固有属性,其在同构映射下保持不变。借助于所构造的细粒度的顶点不变量,将标签信息沿图拓扑结构传播开来,并缩减匹配顶点候选集来减小搜索空间。再次,基于顶点不变量生成了细粒度的剪枝条件。由于结合标签信息和拓扑结构,这些条件具有更强的剪枝能力。另外,将提出检测方法中的技术细节应用到第2章提出的GPTree结构上,来显示其可用来优化已有方法的适用性。最后实验结果表明,提出方法具有良好的高效性,同时应用新技术的GPTreeTest*算法效率优于原始方法GPTreeTest。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.13

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 沈思;苏新宁;;知识服务环境下分类表的知识组织探究[J];图书情报工作;2014年07期
中国硕士学位论文全文数据库 前2条
1 马静;基于路径映射的图相似性计算方法研究[D];辽宁大学;2012年
2 郑石军;基于贝叶斯网络的数据图检索算法研究[D];大连海事大学;2013年
【参考文献】
中国期刊全文数据库 前2条
1 周傲英;金澈清;王国仁;李建中;;不确定性数据管理技术研究综述[J];计算机学报;2009年01期
2 邹兆年;李建中;高宏;张硕;;从不确定图中挖掘频繁子图模式[J];软件学报;2009年11期
【共引文献】
中国期刊全文数据库 前10条
1 高冲;;高速铁路工程地质勘察中的不确定性问题研究[J];安徽建筑;2011年05期
2 王爽;王国仁;;基于不确定数据的分布式Top-k查询算法[J];东北大学学报(自然科学版);2010年02期
3 信俊昌;黄健美;王国仁;公丕臻;;基于状态空间搜索的不确定轮廓查询算法[J];东北大学学报(自然科学版);2010年03期
4 王爽;杨广明;朱志良;;基于不确定数据的频繁项查询算法[J];东北大学学报(自然科学版);2011年03期
5 张一楠;邹兆年;李建中;;不确定图间α-β子图同构匹配算法[J];智能计算机与应用;2011年05期
6 万绪江;班显秀;刘小东;万朔;;网络安全的防御方法和可行性研究[J];电脑编程技巧与维护;2010年08期
7 万绪江;李洋;李子云;万朔;;网络硬盘检测与维修技术的研究[J];电脑编程技巧与维护;2010年10期
8 万绪江;班显秀;袁健;罗晶;万朔;;多普勒雷达DATA文件安全模型的设计[J];电脑编程技巧与维护;2010年20期
9 周帆;李树全;肖春静;吴跃;;不确定数据Top-k查询算法[J];电子测量与仪器学报;2010年07期
10 高琳;覃桂敏;周晓峰;;图数据中频繁模式挖掘算法研究综述[J];电子学报;2008年08期
中国重要会议论文全文数据库 前10条
1 杨增芳;张海强;唐合文;;随机模拟方法在数据挖掘中的应用探讨[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
2 杨光飞;党延忠;;不完美数据中的知识发现研究综述[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
3 周杨;王峰;;FSM——基于子图同构和结构同构的频繁子图挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 丁国辉;王国仁;赵宇海;;基于使用信息和聚类方法的多模式集成[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
5 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 刘德喜;万常选;刘喜平;;不确定数据库中基于x-tuple的高效Top-k查询处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
7 信俊昌;王国仁;公丕臻;吴俊杰;;不确定数据库中的阈值轮廓查询处理[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 李传文;谷峪;李芳芳;于戈;;一种障碍空间中不确定对象的连续最近邻查询方法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
9 袁野;王国仁;;面向不确定图的概率可达查询[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
10 韩蒙;张炜;李建中;;RAKING:一种高效的不确定图K-极大频繁模式挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
3 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
4 赵建邦;基于代谢网络的功能模式发现及系统发生分析研究[D];西安电子科技大学;2011年
5 邹晓红;用于图分类的频繁子结构挖掘算法研究[D];燕山大学;2011年
6 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
7 丁男;基于WSN的实时动态交通流数据获取相关技术研究[D];大连理工大学;2011年
8 蒲海涛;物联网环境下基于上下文感知的智能交互关键技术研究[D];山东科技大学;2011年
9 谷峪;不确定性RFID流数据管理关键技术研究[D];东北大学;2010年
10 黄健美;高维数据索引及其查询处理技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
2 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
3 王瑛;基于模糊聚类的入侵检测算法研究[D];江西理工大学;2010年
4 刘文艳;基于深度优先策略的频繁导出子图挖掘算法[D];西安电子科技大学;2009年
5 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
6 刘彦红;企业应用系统中不确定性数据集成研究[D];曲阜师范大学;2011年
7 陈建国;基于频繁子树序列的挖掘方法研究[D];兰州大学;2011年
8 刘光熠;关于不确定性数据置信度算法的研究[D];复旦大学;2010年
9 杨金伟;基于距离和信息熵的不确定异常点检测研究[D];云南大学;2011年
10 高世健;基于U-AHC的不确定co-location模式挖掘研究[D];云南大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 贺定安;关于编制《中图法·网络信息分类表》的构想[J];国家图书馆学刊;2002年03期
2 臧国全;论虚拟图书馆分类表设计[J];大学图书馆学报;2003年06期
3 王忠红;;用传统分类表与叙词表编制Taxonomy的理论可行性研究[J];大学图书馆学报;2007年04期
4 仲新宇;;基于结构相似的本体匹配方法综述[J];信息技术与标准化;2008年12期
5 张俊;邵仁俊;曾一鸣;;对象级别的关系数据库信息检索技术研究[J];计算机科学;2012年01期
6 徐建民;白彦霞;吴树芳;;基于术语相似度的贝叶斯网络检索模型扩展[J];计算机工程;2007年16期
7 张硕;高宏;李建中;邹兆年;;不确定图数据库中高效查询处理[J];计算机学报;2009年10期
8 徐建民;白彦霞;吴树芳;;基于同义词扩展的贝叶斯网络检索模型[J];计算机应用;2006年11期
9 陈琼;李辉辉;肖南峰;;基于节点动态属性相似性的社会网络社区推荐算法[J];计算机应用;2010年05期
10 刘宝生;闫莉萍;周东华;;几种经典相似性度量的比较研究[J];计算机应用研究;2006年11期
中国博士学位论文全文数据库 前1条
1 李先通;图数据查询技术的研究[D];哈尔滨工业大学;2009年
【二级参考文献】
中国期刊全文数据库 前2条
1 谷峪;于戈;张天成;;RFID复杂事件处理技术[J];计算机科学与探索;2007年03期
2 李建中,李金宝,石胜飞;传感器网络及其数据管理的概念、问题与进展[J];软件学报;2003年10期
【相似文献】
中国期刊全文数据库 前10条
1 张新平;MySQL数据库查询中的like问题[J];中央民族大学学报(自然科学版);2003年03期
2 王富强;王青山;张立朝;朱浩群;王锐;;基于Lucene的数据库全文信息检索[J];测绘科学;2008年03期
3 徐卫;基本单位名录数据库查询系统[J];统计与咨询;1997年05期
4 明海波;XML实现Web数据库查询的研究和应用[J];浙江工贸职业技术学院学报;2004年02期
5 徐少平,徐少文;基于Sem-ODM建模方法的多源数据库查询框架[J];现代计算机;2005年04期
6 胡明晓;;基于服务器扩展和文件池的数据库查询新方式[J];微计算机应用;2007年09期
7 徐从旭;;索引在数据库查询中的应用[J];铜陵学院学报;2008年03期
8 赵俊伟;代军;;基于数据库查询的工业机器人误差补偿方法研究[J];机床与液压;2008年11期
9 张西广;陈涛;吕卫忠;阎保平;;数据库结果集的一种块状读取算法[J];计算机工程;2010年02期
10 王玉华;;Unix平台下的数据库查询开发工具(Web-DTools)的设计与实现[J];信息与电脑(理论版);2011年06期
中国重要会议论文全文数据库 前10条
1 夏卫;;分片技术在数据库查询优化中的应用[A];第九届全国数据库学术会议论文集(上)[C];1990年
2 黄锦辉;任永杰;孟小锋;;Chiql在因特网上的应用[A];第十五届全国数据库学术会议论文集[C];1998年
3 陈余斌;;Internet下数据库查询实现的方法[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
4 董书元;张趋庭;吴英;乐嘉锦;;使用本地缓存技术优化基于Web服务的数据库查询[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 杨向东;;数据库查询在气象旬报中的应用[A];数据库技术在气象领域的应用学术会议论文集[C];2001年
6 张敏;洪澄;陈驰;;一种服务器透明的外包数据库查询验证方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
7 黄长青;;多线程程序设计在数据库查询中的应用[A];武汉市第二届学术年会、通信学会2006年学术年会论文集[C];2006年
8 涂煊;蒋晔;石明根;;多现场总线技术在污水处理控制系统中的应用[A];第七届工业仪表与自动化学术会议论文集[C];2006年
9 沈岳峰;宋国辉;刘建军;;天津港港口自动测风站数据采集处理系统[A];中国气象学会2005年年会论文集[C];2005年
10 沈岳峰;宋国辉;刘建军;;天津港港口自动测风站数据采集处理系统[A];全国优秀青年气象科技工作者学术研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 特约撰稿 王月;实现数据库查询[N];电脑报;2001年
2 北京 李军胜;多条件数据库查询的优化[N];电脑报;2004年
3 合众;给数据库一双“慧眼”[N];网络世界;2006年
4 ;学校数据库安全堪忧[N];网络世界;2007年
5 见习记者 蒋永峰;省药监局开通药物真假验证辨别系统[N];湖南经济报;2007年
6 江苏 赵江;把健康握在自己手中[N];电脑报;2003年
7 许杰;“个人信用”左右烟台人信贷[N];烟台日报;2007年
8 ;十着儿识破黑手机[N];中国电子报;2005年
9 本报记者 耿彩琴;3.4亿个人信用全国可查[N];北京日报;2006年
10 ;SurfControl: 强劲的反垃圾邮件引擎[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 张硕;图数据库查询处理技术的研究[D];哈尔滨工业大学;2010年
2 张硕;图数据库查询处理技术的研究[D];哈尔滨工业大学;2010年
3 徐德智;XML数据库查询及其模式集成研究[D];中南大学;2004年
4 卢朝辉;胰腺癌蛋白质组研究及DPC4抑癌基因对胰腺癌细胞系蛋白质组的影响[D];中国协和医科大学;2002年
5 朱勤;基于数字水印的外包数据库内容保护技术研究[D];东华大学;2007年
6 黄继先;基于R-树的空间数据库查询技术研究[D];中南大学;2005年
7 余秋波;早期自然流产蜕膜组织基因表达谱和蛋白质组研究[D];重庆医科大学;2007年
8 陈永恒;基于CMP的高性能数据库查询优化算法的研究[D];吉林大学;2012年
9 杨惠云;老年性痴呆大鼠海马突触体的蛋白质组学研究[D];天津医科大学;2009年
10 邓亚丹;面向共享Cache多核处理器的数据库查询执行优化技术研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 张艳辉;外包XML数据库查询验证技术研究[D];暨南大学;2012年
2 于晨昕;管理信息系统中的DB2数据库查询优化研究[D];华中科技大学;2009年
3 于晨昕;管理信息系统中的DB2数据库查询优化研究[D];华中科技大学;2009年
4 林海华;网格环境下数据库查询的原型与实现[D];华中科技大学;2004年
5 黄钟元;Hadoop平台下的关系数据库查询与实现[D];复旦大学;2011年
6 邵坤;Web数据库查询结果个性化分类方法研究[D];东北大学;2009年
7 袁多宝;外包数据库查询验证技术的研究[D];暨南大学;2010年
8 王玉华;Unix平台下的数据库查询开发工具(Web-DTools)的设计与实现[D];中国海洋大学;2011年
9 汤沁;PAR平台中数据库查询优化方案研究及实现[D];江西师范大学;2013年
10 孙妍姑;基于OGSA的数据库网格查询系统的研究与实现[D];河海大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026