收藏本站
《重庆大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

数据仓库实体化视图联机—致性维护研究

陈金玉  
【摘要】: 数据仓库是市场激烈竞争的产物,它将大量用于事务处理的数据库数据进行清理、抽取和转换,并按决策主题的需要重新进行组织,以达到有效决策支持的目标。自从它上世纪90年代初被提出以来,迄今已经形成潮流。在美国,数据仓库已成为紧跟Internet之后处于第二位的技术热点。 作为数据仓库技术研究的热点之一,实体化视图的联机维护是数据仓库联机维护技术中的一个关键技术。它是指,在数据仓库为用户提供服务的同时,当数据库中的原始数据发生改变时,系统能实时地将这种变化反映到数据仓库中,使相应的实体化视图得到及时的刷新。 现有的数据仓库产品采用的都是定时脱机维护策略:系统先搜集记录,但不立刻加入数据仓库,而是采用定时技术对数据仓库进行增量更新,期间数据仓库被禁止使用。所以,许多采用现有数据仓库产品的公司都是利用夜晚对数据仓库进行刷新维护,以保证其在正常工作时间内能够读取数据仓库内的数据。但是,这种维护方式面临3个重要的问题: 第一,随着全球经济一体化的推进,跨地区、甚至于跨国企业不断涌现。对于这些企业来说,由于时区的原因,专门对系统进行更新维护的“夜晚”将越来越难以确定,从而可能影响到企业数据的及时传送。 第二,随着应用的不断深入,当数据量非常大的时候,这种维护方式所用的时间也会越来越长。同时,由于定时技术在刷新系统期间,对数据仓库是禁止使用的,而系统的维护工作必须在次日清晨用户开始使用数据仓库之前完成,因此时间是一个必须认真考虑的限制因素。 第三,定时技术容易使信息过时。在一些对实时性要求比较高的关键任务中,如战场决策等,这种脱机维护方式是不能够被接受的。 因此,开展24(小时)×7(天)的数据仓库实体化视图联机维护工作模式研究,是一个有着实际意义的课题。 对于单数据源单视图环境下的数据仓库实体化视图的联机维护问题,论文通过引入数据扩展模式的概念,对数据源的修改信息进行分类记录;论文采用版本控制、补偿思想和应答机制来协调数据源与数据仓库间的数据更新,提出了相应维护算法Glide;该算法分为Glide-DW和Glide-DB两部分,分别在数据仓库端和源数据库端执行,以保证数据仓库实体化视图数据与源的一致性;对于一些必须通过访问源数据库才能给出的OLAP查询等,算法Glide也保证了它们的一致性;算法修正了前人算法中的一些不足,并提高了算法的健壮程度和源数据库端CPU WP=5 的利用率;论文指出,算法Glide是完全一致收敛的,并给出了严格的数学证明;且通过一个示例说明了该算法在实际中的具体运用;对于包含源关系关键属性的数据仓库实体化视图定义,论文介绍了针对性维护算法ECA-Key. 多数据源联接的数据仓库实体化视图的一致性维护,是该论文研究的第二个问题。其问题的难点在于,由于业务分布、介质及网络通信等方面的原因,数据仓库收到的查询计算结果,和它向各数据源发出的计算查询顺序并不一致,从而引起更新维护后数据的不一致。对于包含源关系关键属性的数据仓库实体化视图定义,论文介绍了针对性维护算法Strobe及其改进算法Strobe*,并给出算法Strobe*强一致收敛的理论证明。对于一般情景下的多源维护,论文提出了一个强一致普适性算法M-Glide,它是算法Glide的一个本质推广;算法引入动作列表(action list)概念,用于记录数据仓库端发出的操作序列集,并通过它保证维护提交的动作顺序和集成器收到的消息的顺序一致,从而确保当提交维护事务后数据仓库视图值与源的一致性;文章同时给出了一个说明示例。 粒度是数据仓库的重要概念,在数据仓库中,多重粒度是必不可少的。如何进行粒度视图,即基本方体与聚合格间的维护,同时保证它们之间,以及它们与数据源之间的数据一致性,是论文研究的另外两个问题。论文引入了视图更新表(View Update Table)的概念,以用于记录各数据源记录变化对数据仓库视图的影响,于是当视图更新表判定当返回的查询结果,已能引起各数据仓库视图间的数据达到一致状态时,将由合并进程生成一个统一的维护事务向数据仓库提交;论文介绍了多视图维护算法SPA及PA,分别用于处理单一更新与集中处理的不同情况;算法保证当数据源发生变化时,多视图的维护能够确保视图数据与源之间,同时各视图之间的数据一致性。论文指出,简单画笔算法SPA是完全一致收敛的,而画笔算法PA是强一致收敛。 对于带有聚集函数的视图维护问题,其实际背景是多维数据库的立方体概念。数据仓库的物理结构一般采用星型结构的关系数据库。星型结构由事实表和维表组成,多个维表之间形成多维数据结构。星型结构的数据体现了空间的多维立方体,聚合格即是事实表与相应维表之间的聚集联接。如何维护这些聚合格,可以看作是多视图维护的一个特例。与多视图维护不同的是,这些聚合格带有聚集函数定义,同时引发它们更新维护的原因在于基本方体的变化。论文在前人研究的基础上,提出了改进算法Refresh*,研究当基本方体发生增删变化时,聚合格如何反映这种的变化。算法给出了聚合格维护的一个具体方法,与原有的算法相比,算法Refresh*在时间复杂度上有很大的改进。 论文还
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2002
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 刘大昕,张春林,聂亚杰,张子杨;数据仓库与OLAP技术[J];计算机仿真;2003年05期
2 陈金玉,王启星;多数据源数据仓库实体化视图维护与下查[J];重庆大学学报(自然科学版);2005年05期
3 郭庆;;数据仓库中实体化视图的一种维护算法[J];暨南大学学报;2007年03期
4 李贤昭;谷岩;;基于用户偏好的实体化视图选择研究[J];现代计算机(专业版);2009年03期
5 徐海涛,郑宁;基于模拟退火算法的实体化视图动态选择方法[J];计算机工程与应用;2005年22期
6 李会;胡笑梅;;数据仓库中实体化视图联机维护一致性研究[J];水电能源科学;2008年03期
7 李子木,李磊,徐明,周兴铭;数据仓库的联机维护与下查[J];计算机学报;1999年09期
8 李子木,孙利民,周兴铭;数据仓库联机维护中一致性问题的研究[J];软件学报;1999年08期
9 方绪健;王伟皓;;实体化视图动态选择预处理算法的研究[J];计算机与数字工程;2007年01期
10 潘海为,孙文隽,李建中;数据仓库中的实体化视图的维护策略[J];黑龙江大学自然科学学报;1999年03期
中国重要会议论文全文数据库 前10条
1 严哲南;楼荣生;;窗口算法问题的解决方案[A];第十六届全国数据库学术会议论文集[C];1999年
2 杨崇联;谢旭升;;基于数据仓库的政府决策支持服务系统研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 刘刚;付忠广;申鹏飞;郑玲;靳涛;;基于发电厂机组数据仓库的数据挖掘系统的研究[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
4 姚卿达;屈定春;;联邦数据库互操作方法在数据仓库中的应用[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
5 唐蕾;张剡;柏文阳;徐洁磐;;数据仓库工具集NGDW-1的设计与实现[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 廖燕玲;卢语丹;阮艳萍;高丽金;;高校教学决策支持系统的数据仓库研究[A];Proceedings of 2010 National Vocational Education of Communications and Information Technology Conference (2010 NVCIC)[C];2010年
7 宋擒豹;沈钧毅;;数据仓库体系结构研究[A];第十六届全国数据库学术会议论文集[C];1999年
8 刘伟宏;李晋晋;何瑷;徐洁磐;;数据仓库及其在OMNIX中的实现[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
9 曹顺良;李荣;张忠平;汪卫;朱扬勇;李亦学;;BioDW:一个整合的生物信息学数据仓库平台[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 毛明志;黄春贤;;一种新的数据仓库ETL框架及其应用[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国重要报纸全文数据库 前10条
1 段云峰 杨凤年 宋俊德;数据仓库必不可少[N];计算机世界;2002年
2 ;“快钱”的速度[N];网络世界;2005年
3 ;IBM DB2商业智能软件[N];中国计算机报;2007年
4 刘庆;颗粒归“仓”,刀枪入“库”[N];网络世界;2006年
5 本报记者 赵晓涛;中国人保试点数据仓库[N];网络世界;2004年
6 本报记者 潘永花;实时企业的决策引擎[N];网络世界;2005年
7 邹大斌;关注商业智能的性能[N];计算机世界;2007年
8 ;数据仓库向外部用户开放[N];网络世界;2007年
9 本报记者 谌力;心甘情愿的“不归路”[N];网络世界;2005年
10 ;企业范围内部署BI效果更佳[N];网络世界;2010年
中国博士学位论文全文数据库 前10条
1 陈金玉;数据仓库实体化视图联机—致性维护研究[D];重庆大学;2002年
2 朱传华;三峡库区地质灾害数据仓库与数据挖掘应用研究[D];中国地质大学;2010年
3 孟京辉;经营单位级森林经营数据仓库研建及应用研究[D];中国林业科学研究院;2011年
4 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
5 克里木;自适应数据仓库系统的研究与实现[D];大连理工大学;2003年
6 宋杰;面向多类型数据源的数据仓库构建及ETL关键技术的研究[D];东北大学;2008年
7 曹恒;北京市房山区环境污染突发事件应急决策支持系统研究[D];北京林业大学;2012年
8 徐小博;客户关系管理系统的安全防护机制[D];吉林大学;2012年
9 麦永浩;数据仓库和数据挖掘方法研究及其在公安信息建设中的应用[D];华东理工大学;2000年
10 李学锋;矿山企业数据仓库的应用研究[D];昆明理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 朱焱;面向决策的数据仓库和OLAP技术研究[D];合肥工业大学;2002年
2 张红霞;数据仓库中实体化视图一致性维护方法研究[D];郑州大学;2002年
3 陈思维;基于数据仓库的区域环境质量预测分析系统[D];电子科技大学;2010年
4 张艳;维度建模在电信数据仓库中的应用[D];西安电子科技大学;2010年
5 蒋昙飞;面向社区服务的数据仓库关键技术研究与实现[D];西安电子科技大学;2009年
6 彭辛庚;电信企业数据仓库经营分析系统的设计与实现[D];湖南大学;2009年
7 赵在宽;基于数据仓库的气象干旱指标挖掘研究与实现[D];解放军信息工程大学;2009年
8 李慧;基于数据仓库的图书馆决策支持系统[D];天津大学;2010年
9 袁玮;新疆联通经营分析系统中数据仓库的应用[D];电子科技大学;2009年
10 文宇;点击流数据仓库在电子商务中的应用研究[D];电子科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026