面向异构信息网的多维分析技术研究
【摘要】:随着计算机技术的发展和信息的爆炸式增长,数据的表示手段和表现形式越来越丰富,数据对象之间的关联关系也越来越复杂。信息网络数据模型较传统的关系数据模型在数据信息语义表达能力与数据对象间关联关系表示能力上更具优势,被广泛应用到具有复杂关联关系和内部拓扑结构的数据建模中。信息网络根据实体类型的数量和关系类型的数量被分为两类:同构信息网络和异构信息网络。相比于同构信息网络,异构信息网络能够更加自然和准确地表达和存储现实世界中实体以及实体之间的关联信息,包含更加丰富的语义。对异构信息网络进行多维分析,能够挖掘其中潜在的有价值的知识,具有重要的研究意义和价值。目前对于信息网络多维分析的研究,偏向于同构信息网络,不能直接用于异构信息网络。本文针对异构信息网络的多维分析问题展开相关研究,主要工作如下。提出了一种基于图正则表达式的异构信息网查询语言。首先,提出了图匹配模式的概念,可用来准确描述用户的查询语义。然后,设计了一种新颖的图正则表达式来描述图匹配模式,其中,路径正则表达式(Path regular Expression,PRE)描述线性图匹配模式与环形图匹配模式,图正则表达式(Graph Regular Expression,GRE)描述更复杂也更普遍的星型图匹配模式和混合型图匹配模式。图正则表达式既能提供良好的查询语义表达能力,又有很好的查询处理和查询优化性能。最后,提出了基于图正则表达式的异构信息网查询语言(Regular Expression Graph Query Language,ReQL),支持对异构信息网络的实体属性、子图结构和信息聚合的查询分析。提出了基于图正则表达式的三层结构图立方体模型。首先,定义了两种异构信息网多维分析的维度,分别为属性维和结构维,并分别介绍了二者的维度层次结构。其中,属性维用于从顶点或边的角度查看数据,结构维用于从拓扑结构角度查看数据。其次,基于不同的聚合方式与所表达的内容,定义了内容度量、数值度量和图度量这三种异构信息网络度量方式。然后,基于维度与度量,提出了一个三层的异构信息网络图立方体模型,以支持对异构信息网络全方位多层次的数据分析,最外层包含初始图和四个子立方体(线性结构图立方体、环形结构图立方体、星型结构图立方体、混合型结构图立方体),中间层是结构维图立方体,最内层是属性维图立方体。最后,分别给出了子立方体内的OLAP操作和子立方体间的OLAP操作,重新定义了OLAP基础操作上卷和下钻的操作语义,用以支持对图立方体的多维查询。给出了ReQL的查询处理与优化。首先,设计并实现了ReQL解析器,对ReQL依次进行词法分析、语法分析和语义分析,识别ReQL表达的查询语义。然后,给出了ReQL查询处理过程,并重点介绍了PRE/GRE的查询处理过程,提出了两种PRE/GRE查询处理方式,Navigation查询和HashJoin查询。接着,提出了两种PRE/GRE查询优化技术,包括索引技术与基于代价模型的查询优化技术。最后,通过实验验证了基于代价模型的查询优化技术的可行性和有效性。设计并实现了异构信息网络多维分析系统。首先,介绍了系统的架构设计。其次,给出了数据存储方案。然后,介绍了系统采用的物化策略。接下来,给出了系统OLAP操作的实现,包括OLAP操作的实现框架、上卷操作与下钻操作的实现。最后,通过实验验证了系统多维分析的有效性并进行了OLAP操作实现方法的对比实验。