收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向多类型数据源的数据仓库构建及ETL关键技术的研究

宋杰  
【摘要】: 数据仓库的创建与应用是企业信息化发展的必由之路。近十年来,为满足数据的集成、管理和决策支持的目的,在世界各地出现了大量的、不同规模的数据仓库系统。数据仓库数据源的类型也越来越多样化。尤其是Web数据源,文本数据源等实时数据源的出现,给数据仓库的构建以及ETL提出新的挑战。数据仓库技术面临若干紧迫问题:如何构建一个完善的数据仓库体系以适应多种类型的数据源;如何高效实现数据仓库体系中各个层次的ETL过程;如何保证ETL的实时性以及如何改进数据仓库的访问控制模型等。 本文针对多类型数据源的特点,首先分析现有数据仓库的需求和数据源的种类。本文以国家海洋数据仓库系统为例,利用局部ETL和全局ETL两段式ETL过程;演化面向多类型数据源的数据仓库体系结构,包括抽取层、归档层、汇总层、仓库层和应用层,并且详细论证了每一层的设计思路和作用。基于此,本文研究了每一层涉及的若干关键问题。 抽取层和归档层主要完成数据的抽取和归档工作,该层的ETL软件实现从数据源中抽取数据并装载到归档库中,因此称为局部ETL。本文重点研究了无结构的Web页面,半结构化文本和结构化的关系型数据库这三种数据源的局部ETL技术。首先,针对无结构的Web页面数据源的局部ETL问题,提出一种较传统方式更为高效的Web页面采集存储方法。把页面按照其布局特点分为若干个区域,把这些区域作为变化检测、存储和处理单元。 其次,针对半结构化文本数据源的局部ETL问题,重点研究了半结构化非白描述型科学文本数据,提出了一种文本数据关系化方法,实现从文本模型到对象模型进而到关系模型的转换。此外如何保障关系化的效率和安全性也是本研究的重点。 再次,针对结构化关系数据库数据源的局部ETL问题,本文分析和总结了影响ETL引擎性能的主要因素,提出了一种基于分布式数据库的ETL新方法,还提出了一种元数据驱动的ETL方法来克服现有ETL工具和手工编码方式的不足。基于E-LT方法,本文利用SQL语言实现了元数据驱动的ETL工具并详细测试了其执行性能。 汇总层和仓库层完成从各个数据源的归档区到数据仓库的数据集成工作,该ETL过程称为全局ETL。由于数据仓库的实时性要求,多数据源全局ETL不仅要面临数据集成问题,还要保证ETL的实时或是近实时调度。本文提出了按照集成的自身规则触发ETL过程,并分配资源,以解决全局ETL的调度执行,以及它和其它数据仓库应用之间争夺数据仓库资源的问题。由于实时ETL执行过程中独占数据仓库资源,应用端一时无法连接数据仓库而处于一种离线状态。本文设计了一个支持离线运行的客户端框架,使得短时离线的过程对客户端用户透明。该离线客户端框架属于环境可感知软件框架,具有一定的通用性。 数据仓库应用层主要包含查询检索,OLAP,数据挖掘等应用,还包括各应用的访问控制系统。数据仓库应用乃至数据仓库自身都需要一种良好的访问控制机制。本文提出两种访问控制模型。基于角色和上下文的访问控制模型是经典的基于角色的访问控制模型的扩展,适用于数据仓库应用以及任何面向最终用户的软件系统的访问控制。基于意图的访问控制模型适用于数据库系统,数据仓库系统等面向应用软件的系统的访问控制。本研究还在后者的基础上进一步研究了意图间的层次关系挖掘算法。 总之,本文提出了一种面向多类型数据源的数据仓库体系结构和层次划分,基于该体系结构对各层次的关键问题进行分析和研究。所提出的所有模型和算法均给出实现方法或运用在实际项目中,理论分析和实验证明了所提出方法和技术的可行性和有效性。整个研究内容围绕着数据仓库和ETL过程的设计和实施,保证了数据仓库系统中数据的流动和访问的实时、灵活、高效,对数据仓库的建设和ETL的实施有一定指导作用。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李志辉;;ETL实施的数据质量问题研究[J];电脑知识与技术(学术交流);2006年26期
2 王黎峰;;面向中小企业的数据仓库架构设计与实现[J];农业网络信息;2009年12期
3 刘洋;毕红军;路静;;ETL系统的研究与实现[J];内蒙古科技与经济;2008年20期
4 毕锟;刘军;;ETL系统的设计及其研究[J];软件导刊;2010年05期
5 吴莹莹;;浅议企业数据仓库的实现模式[J];电脑知识与技术;2010年08期
6 金明;;企业数据仓库的ETL技术[J];电力信息化;2010年09期
7 宋杰;王大玲;鲍玉斌;于戈;;一种元数据驱动的ETL方法的研究[J];小型微型计算机系统;2007年12期
8 高小飞;冯杰;;一种决策树算法在数据仓库ETL中的应用与研究[J];计算机与现代化;2009年04期
9 肖国荣;;银行信用评估系统数据质量分析方法研究[J];福建电脑;2006年08期
10 王亮;葛玮;;ETL过程的思考[J];计算机技术与发展;2008年10期
11 梁美红;张男楠;李建;伍东;胡永泉;杨静;;一种钻井数据仓库ETL系统的设计[J];计算机技术与发展;2010年03期
12 戚冬;;数据挖掘技术在上海市民信箱数据分析上的应用[J];科技广场;2009年01期
13 常新功,肖玉巍,金红;数据仓库的ETL策略[J];山西财经大学学报;2002年S1期
14 金杰;王作君;薛锡艳;;数据仓库的基本理论及中药色谱指纹图谱数据仓库的构建[J];广东药学院学报;2007年05期
15 周四维;曾记;李跃新;;基于COW模式下的ETL应用研究[J];武汉科技学院学报;2009年02期
16 谢小山,陈有青;企业数据仓库工具的研究与实现[J];现代计算机;2003年08期
17 李坤;;数据仓库在油田数据中心建设中的应用[J];工业控制计算机;2008年06期
18 董会国;;Business Intelligence在企业数据仓库建设中的应用与研究[J];科技信息;2009年34期
19 朱国文;冯少荣;;点击流数据仓库的构建与多维分析[J];海峡科学;2010年04期
20 王秋楠;周连喆;;基于数据仓库的一种通用ETL工具的设计与实现[J];电脑知识与技术;2008年26期
中国重要会议论文全文数据库 前10条
1 张卫华;方幼林;杨冬青;唐世渭;余立波;付强;;数据仓库ETL过程支撑框架研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 毛明志;黄春贤;;一种新的数据仓库ETL框架及其应用[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 严哲南;楼荣生;;窗口算法问题的解决方案[A];第十六届全国数据库学术会议论文集[C];1999年
4 杨崇联;谢旭升;;基于数据仓库的政府决策支持服务系统研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 刘刚;付忠广;申鹏飞;郑玲;靳涛;;基于发电厂机组数据仓库的数据挖掘系统的研究[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
6 姚卿达;屈定春;;联邦数据库互操作方法在数据仓库中的应用[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
7 唐蕾;张剡;柏文阳;徐洁磐;;数据仓库工具集NGDW-1的设计与实现[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 廖燕玲;卢语丹;阮艳萍;高丽金;;高校教学决策支持系统的数据仓库研究[A];Proceedings of 2010 National Vocational Education of Communications and Information Technology Conference (2010 NVCIC)[C];2010年
9 宋擒豹;沈钧毅;;数据仓库体系结构研究[A];第十六届全国数据库学术会议论文集[C];1999年
10 刘伟宏;李晋晋;何瑷;徐洁磐;;数据仓库及其在OMNIX中的实现[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国博士学位论文全文数据库 前10条
1 宋杰;面向多类型数据源的数据仓库构建及ETL关键技术的研究[D];东北大学;2008年
2 孟京辉;经营单位级森林经营数据仓库研建及应用研究[D];中国林业科学研究院;2011年
3 朱传华;三峡库区地质灾害数据仓库与数据挖掘应用研究[D];中国地质大学;2010年
4 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
5 克里木;自适应数据仓库系统的研究与实现[D];大连理工大学;2003年
6 李泽海;数据仓库中多维数据处理与查询相关技术的研究[D];吉林大学;2005年
7 张旭峰;ETL若干关键技术研究[D];复旦大学;2006年
8 曹恒;北京市房山区环境污染突发事件应急决策支持系统研究[D];北京林业大学;2012年
9 陈金玉;数据仓库实体化视图联机—致性维护研究[D];重庆大学;2002年
10 徐小博;客户关系管理系统的安全防护机制[D];吉林大学;2012年
中国硕士学位论文全文数据库 前10条
1 张艳;维度建模在电信数据仓库中的应用[D];西安电子科技大学;2010年
2 蒋昙飞;面向社区服务的数据仓库关键技术研究与实现[D];西安电子科技大学;2009年
3 文宇;点击流数据仓库在电子商务中的应用研究[D];电子科技大学;2009年
4 张军玲;数据仓库在电信综合运营支撑系统中的应用[D];西安电子科技大学;2009年
5 龙涛;改善数据仓库中数据质量的方法与应用[D];湖南大学;2009年
6 陈思维;基于数据仓库的区域环境质量预测分析系统[D];电子科技大学;2010年
7 彭辛庚;电信企业数据仓库经营分析系统的设计与实现[D];湖南大学;2009年
8 赵在宽;基于数据仓库的气象干旱指标挖掘研究与实现[D];解放军信息工程大学;2009年
9 李慧;基于数据仓库的图书馆决策支持系统[D];天津大学;2010年
10 袁玮;新疆联通经营分析系统中数据仓库的应用[D];电子科技大学;2009年
中国重要报纸全文数据库 前10条
1 段云峰 杨凤年 宋俊德;数据仓库必不可少[N];计算机世界;2002年
2 ;“快钱”的速度[N];网络世界;2005年
3 ;IBM DB2商业智能软件[N];中国计算机报;2007年
4 刘庆;颗粒归“仓”,刀枪入“库”[N];网络世界;2006年
5 本报记者 赵晓涛;中国人保试点数据仓库[N];网络世界;2004年
6 本报记者 潘永花;实时企业的决策引擎[N];网络世界;2005年
7 邹大斌;关注商业智能的性能[N];计算机世界;2007年
8 ;数据仓库向外部用户开放[N];网络世界;2007年
9 本报记者 谌力;心甘情愿的“不归路”[N];网络世界;2005年
10 ;企业范围内部署BI效果更佳[N];网络世界;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978