自适应数据仓库系统的研究与实现
【摘要】:
数据仓库的创建与应用是企业信息化发展的必由之路。近十年来,为满足历史数据管理与决策支持的目的,在世界各地出现了大量的、不同规模的数据仓库系统,同时也日益暴露出数据仓库与生俱来的反生命周期的特点与当前流行的软件开发方法之间的矛盾。当前,数据仓库技术面临这样的紧迫问题:在数据仓库创建伊始,数据仓库系统无法辅助用户精确定义业务元数据(用于确定维—指空间)与聚集元数据(用于确定聚集空间);在软件运行过程中,不能够自动捕获用户需求的变化而做出反应;无法在更大范围内分布式处理数据仓库实体化时的繁重负载;无法在更大范围内分布式处理数据仓库使用过程中的查询负载。鉴于此,本文以数据仓库系统面临的问题与矛盾为研究背景,以中国人民银行大连资金清算中心清分信息服务系统、大连国际合作集团决策支持系统、中国人寿保险公司大连分公司营销决策支持系统评估与规划等三个项目为应用背景,以强化数据仓库系统的自适应性、在数据仓库系统中进行聚集优化和度量数据仓库用户适用度,得到一个自适应的数据仓库系统为目的,利用数据仓库技术、数据仓库质量、CORBA结构以及Agent技术,重点研究了以下内容:
(1)为达到降低软件系统开发成本、提高组件重用性、在较大范围内实现平衡负载与分布运算的目的,赋予数据仓库体系结构主动性、持久性、智能性的能力,本文利用CORBA技术、Agent技术与Java编程语言,研究并实现了数据仓库自适应体系结构。它是一种能够接受多种有效组件,可实现组件的即插即用,并支持多种操作系统平台、数据库平台与网络平台,可方便的实现组件与数据仓库自适应体系结构之间、组件与组件之间以及组件与用户之间的通信,在Agent的支持下,实现了在一定范围内按照一定的规范分布计算、负载平衡与自我调整的新型智能数据仓库体系结构。该体系结构由组件系列、数据库系列、质量系列、服务系列与维护系列的多种Agent与服务器软件组成,全面吸收和利用了当前有效的软件开发技术与组件重用技术,尤其在组件调用上突破了组件对象引用时,必须利用对象标志进行连接,以及简单的名字服务的局限性,在更大的范围内实现了负载平衡与分布计算。
(2)为适应数据仓库的个性化要求,响应用户对数据仓库的需求,本文基于现有产品的数据仓库优化功能,提出了数据仓库聚集方案最优寻径算法,与数据仓库聚集方案自身优化算法,研究并实现了数据仓库聚集优化。对于在用户的频繁使用之下的数据仓库系统,当务之急是通过机器学习,利用专有软件系统经常性或阶段性地、主动地对数据仓库的元数据进行修正,以使数据仓库系统能够在最好的时间复杂性与空间复杂性上响应用户的需求,从而提高数据仓库系统的执行效率,延长数据仓库系统的生命周期。本文在对数据仓库优化给出全面的介绍之后,详细讨论了聚集优化的解决方案与实现办法。在聚集优化的实现当中,本文基于原聚集方案关系图,提出了一种聚集方案最优寻径算法与自身优化算法,从而得到一个聚集代价较低,又能够满足当前用户需求的聚集方案实体化集合。
(3)为量化用户对数据仓库的需求,本文引进了数据仓库质量的概念,经过对其深入的应用,建立了较为完备的数据仓库质量体系结构,研究并实现了数据仓库数据使用质量。数据仓库数据使用质量是数据仓库对用户的最佳适用度。数据仓库数据使用质量本身是一个主观性的问题,要使之发挥相应的作用就必须量化质量,使其具有多个指
标和决定因素,以便于综合评判。因此,本文就数据仓库数据使用质量进行了深入的研
究与分析,给出了获取数据仓库聚集方案用户适用度的解决方案。
(4)本文研究并得到了一种自适应数据仓库系统的实现模型,利用CORBA技术、
Agent技术、数据仓库技术、OLAP技术,基于数据仓库自适应体系结构,借助数据仓
库数据使用质量,利用数据仓库聚集优化技术,得到了一个能够自动采集用户需求并更
新数据仓库元数据、平衡采集负载与使用负载,有效响应用户需求的新型数据仓库系统。
综上所述,本文扩展了传统的数据仓库体系结构,利用coRBA结构、Agent技术,
赋予了数据仓库系统持续、主动、智能性工作的能力,为数据仓库系统持续、主动、智
能地在运行态进行数据仓库系统自身优化提供了基础,丰富了CORBA结构的组件调用
方式,增强了数据仓库系统在更大范围内分布计算与平衡负载的能力;基于数据仓库聚
集方案的空间复杂度、时间复杂度、用户期望度、用户适用度、聚集闭值以及查询闽值,
基于贪心算法原理,提出了聚集方案自身优化算法与聚集方案最优寻径算法,提高了数
据仓库聚集优化的能力;引进数据仓库质量思想,给出了一般的数据仓库数据使用质量
的质量目标、质量要素以及质量标准,给出了数据仓库数据使用质量(即用户适用度)
的测算方法:基于以上三点,文章给出了自适应数据仓库系统的实现模型,并基于MS
OLAP Services 2000给出了实现案例。
自适应数据仓库系统的提出,在一定程度上解决了数据仓库系统面临的各种问题与
矛盾,为用户能够快速得到一个可以个性化和不断优化自身、充分利用既有软
|
|
|
|
1 |
丁茂顺,廖为;当前数据仓库应用的几个实际问题[J];信息系统工程;1997年09期 |
2 |
魏小宁;构建数据仓库系统的技术分析[J];华南金融电脑;2001年08期 |
3 |
曹翊;石化数据仓库全攻略[J];数字化工;2003年06期 |
4 |
沈云秋,张寅生;浅论数据仓库技术[J];计算机应用研究;1999年01期 |
5 |
杨正,曹志耀;一种基于数据仓库系统的数据获取方案[J];计算机应用研究;2005年05期 |
6 |
周松涛;论数据仓库在电信业的应用[J];通信世界;2004年18期 |
7 |
霍妍,邢小英;数据仓库技术研究与分析[J];宁波广播电视大学学报;2004年03期 |
8 |
彭岚,周启海,夏锋;从数据库到数据仓库[J];计算机时代;2003年09期 |
9 |
徐超毅;网络环境下高校数据仓库系统的设计研究[J];淮海工学院学报(自然科学版);2004年03期 |
10 |
吕朋;开启商业智能[J];市场与电脑;2001年04期 |
11 |
马慧麟;数据仓库的数据采集与建模问题研究[J];中央民族大学学报(自然科学版);2004年04期 |
12 |
杨顺生;数据仓库锁紧商业银行(上)[J];中国计算机用户;2000年04期 |
13 |
王梅芬,谷志恒,谌薇;城市综合业务数据仓库的设计与应用[J];中国金融电脑;2001年10期 |
14 |
王姝华,仲华,吕明;移动通信企业数据仓库系统设计初探[J];江苏通信技术;2004年02期 |
15 |
;Sybase构建银行数据仓库──Sybase数据仓库解决方案在招商银行的应用[J];软件世界;2000年12期 |
16 |
李德勇,翟东升;面向证券分析的数据仓库系统研究[J];北京工业大学学报;2002年02期 |
17 |
陈曦,容太平,邹桂章;数据仓库技术在水文监测方面的应用[J];广东科技;2004年Z1期 |
18 |
廖建云,邱木银,梁钢;寿险企业如何创建Informix数据仓库[J];华南金融电脑;2005年01期 |
19 |
廖敏;数据仓库提升银行竞争力[J];中国计算机用户;2000年22期 |
20 |
林锦贤,沈钧毅;支持金融决策的数据仓库系统[J];计算机工程与应用;2001年08期 |
|