收藏本站
《东北大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

面向多类型数据源的数据仓库构建及ETL关键技术的研究

宋杰  
【摘要】: 数据仓库的创建与应用是企业信息化发展的必由之路。近十年来,为满足数据的集成、管理和决策支持的目的,在世界各地出现了大量的、不同规模的数据仓库系统。数据仓库数据源的类型也越来越多样化。尤其是Web数据源,文本数据源等实时数据源的出现,给数据仓库的构建以及ETL提出新的挑战。数据仓库技术面临若干紧迫问题:如何构建一个完善的数据仓库体系以适应多种类型的数据源;如何高效实现数据仓库体系中各个层次的ETL过程;如何保证ETL的实时性以及如何改进数据仓库的访问控制模型等。 本文针对多类型数据源的特点,首先分析现有数据仓库的需求和数据源的种类。本文以国家海洋数据仓库系统为例,利用局部ETL和全局ETL两段式ETL过程;演化面向多类型数据源的数据仓库体系结构,包括抽取层、归档层、汇总层、仓库层和应用层,并且详细论证了每一层的设计思路和作用。基于此,本文研究了每一层涉及的若干关键问题。 抽取层和归档层主要完成数据的抽取和归档工作,该层的ETL软件实现从数据源中抽取数据并装载到归档库中,因此称为局部ETL。本文重点研究了无结构的Web页面,半结构化文本和结构化的关系型数据库这三种数据源的局部ETL技术。首先,针对无结构的Web页面数据源的局部ETL问题,提出一种较传统方式更为高效的Web页面采集存储方法。把页面按照其布局特点分为若干个区域,把这些区域作为变化检测、存储和处理单元。 其次,针对半结构化文本数据源的局部ETL问题,重点研究了半结构化非白描述型科学文本数据,提出了一种文本数据关系化方法,实现从文本模型到对象模型进而到关系模型的转换。此外如何保障关系化的效率和安全性也是本研究的重点。 再次,针对结构化关系数据库数据源的局部ETL问题,本文分析和总结了影响ETL引擎性能的主要因素,提出了一种基于分布式数据库的ETL新方法,还提出了一种元数据驱动的ETL方法来克服现有ETL工具和手工编码方式的不足。基于E-LT方法,本文利用SQL语言实现了元数据驱动的ETL工具并详细测试了其执行性能。 汇总层和仓库层完成从各个数据源的归档区到数据仓库的数据集成工作,该ETL过程称为全局ETL。由于数据仓库的实时性要求,多数据源全局ETL不仅要面临数据集成问题,还要保证ETL的实时或是近实时调度。本文提出了按照集成的自身规则触发ETL过程,并分配资源,以解决全局ETL的调度执行,以及它和其它数据仓库应用之间争夺数据仓库资源的问题。由于实时ETL执行过程中独占数据仓库资源,应用端一时无法连接数据仓库而处于一种离线状态。本文设计了一个支持离线运行的客户端框架,使得短时离线的过程对客户端用户透明。该离线客户端框架属于环境可感知软件框架,具有一定的通用性。 数据仓库应用层主要包含查询检索,OLAP,数据挖掘等应用,还包括各应用的访问控制系统。数据仓库应用乃至数据仓库自身都需要一种良好的访问控制机制。本文提出两种访问控制模型。基于角色和上下文的访问控制模型是经典的基于角色的访问控制模型的扩展,适用于数据仓库应用以及任何面向最终用户的软件系统的访问控制。基于意图的访问控制模型适用于数据库系统,数据仓库系统等面向应用软件的系统的访问控制。本研究还在后者的基础上进一步研究了意图间的层次关系挖掘算法。 总之,本文提出了一种面向多类型数据源的数据仓库体系结构和层次划分,基于该体系结构对各层次的关键问题进行分析和研究。所提出的所有模型和算法均给出实现方法或运用在实际项目中,理论分析和实验证明了所提出方法和技术的可行性和有效性。整个研究内容围绕着数据仓库和ETL过程的设计和实施,保证了数据仓库系统中数据的流动和访问的实时、灵活、高效,对数据仓库的建设和ETL的实施有一定指导作用。
【学位授予单位】:东北大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP311.13

【引证文献】
中国重要会议论文全文数据库 前1条
1 高斯;徐德华;;保险业CRM平台ETL应用研究[A];第十届中国不确定系统年会、第十四届中国青年信息与管理学者大会论文集[C];2012年
中国硕士学位论文全文数据库 前3条
1 樊广源;南方人才网数据仓库及职位推荐研究[D];暨南大学;2012年
2 董胜利;基于DataStage的自动转换及测试工具的设计与实现[D];华南理工大学;2012年
3 王妙妙;汽车营销服务集团企业数据统一分析处理系统的设计与实现[D];西南交通大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 赵会群,徐凌宇,王国仁,高远;基于随机进程代数的软件体系结构建模与性能评价[J];东北大学学报;2002年01期
2 侯文峰;中国“数字海洋”发展的基本构想[J];海洋通报;1999年06期
3 叶仰明,黄加棋;中国数字海洋的总体技术系统框架[J];海洋科学;2001年05期
4 左亚尧,舒忠梅,潘久辉;一种高效的视图维护算法[J];计算机研究与发展;2003年04期
5 王新军,洪晓光,王海洋,马绍汉;数据仓库中多数据源物化视图的一种有效更新算法[J];计算机研究与发展;2004年05期
6 曲绍刚,杨广文,林闯,史树明;基于完成时间的任务分配方案与性能分析[J];计算机研究与发展;2005年08期
7 贺岚,狄玉来;基于构件的软件设计模型[J];计算机研究与发展;1998年05期
8 李子木,莫倩,徐明,周兴铭;数据仓库中多视图环境下的联机维护[J];计算机研究与发展;1999年08期
9 张宁,贾自艳,史忠植;数据仓库中ETL技术的研究[J];计算机工程与应用;2002年24期
10 张英朝,邓苏,张维明;数据仓库元数据管理研究[J];计算机工程;2003年01期
【共引文献】
中国期刊全文数据库 前10条
1 张安勤,周晓峰;基于构件技术的中间件研究[J];安徽师范大学学报(自然科学版);2004年04期
2 丛红卫,马垣,苑卫国,敖广武;企业管理信息决策支持系统的建立[J];鞍山钢铁学院学报;2002年03期
3 高志民;王声远;;基于风险分析的应用系统访问控制模型[J];北京交通大学学报;2011年05期
4 范昀;方晴;;监控系统中的框架设计思想[J];宝钢技术;2006年04期
5 张晓明;刘萍;王鹏;;基于数据仓库的数据挖掘及联机分析技术[J];兵工自动化;2008年09期
6 王克敏,赵增建,安锦姬,徐先良;基于Java的Web应用系统开发框架[J];北京广播学院学报(自然科学版);2005年01期
7 吕德亮;王晏民;张健钦;吴海燕;;面向宏观交通规划的移动对象模型及应用研究[J];北京建筑工程学院学报;2011年02期
8 杨学兵,蔡庆生;基于数据立方体的维内关联规则挖掘算法[J];北京科技大学学报;2003年01期
9 郝卫东;杨扬;刘宏岚;梁泉;;基于运行时间权矩阵的网格服务匹配问题的优化解[J];北京科技大学学报;2007年12期
10 陈爽;陈福;杜天苍;;一种启发式网络信息采集系统设计与实现[J];北京石油化工学院学报;2007年04期
中国重要会议论文全文数据库 前10条
1 聂丽平;张维勇;程俊;;一种通用权限管理方案与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Digital Ocean Oriented Data Processing and Information Service Systems[A];第二十七届中国控制会议论文集[C];2008年
3 杨静;;基于数据仓库决策分析的电力系统应用研究[A];安徽省电机工程学会优秀学术论文集(2002-2003)[C];2005年
4 胡继华;;元数据驱动在信息资源管理中的应用研究——以城建行业为例[A];中国地理信息系统协会第三次代表大会暨第七届年会论文集[C];2003年
5 吴建玲;安凯;梁军;;基于元数据的社会经济GIS设计与实现[A];中国地理信息系统协会第八届年会论文集[C];2004年
6 杨真;李也白;籍志兵;常一帆;;数据分析技术在商品销售中的应用研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 杨娟;王柏;艾波;;新一代电信运营支撑系统软件体系结构的形式化描述[A];’2004计算机应用技术交流会议论文集[C];2004年
8 衣俊艳;杨刚;曾广周;王晓琳;;实现RBAC+PKI权限管理的过渡方案[A];’2004计算机应用技术交流会议论文集[C];2004年
9 刘启文;;可扩展的图形学算法演示系统的研究[A];’2004计算机应用技术交流会议论文集[C];2004年
10 万仲保;吴军;;基于角色访问控制组件的设计与实现[A];全国计算机安全学术交流会论文集(第二十二卷)[C];2007年
中国博士学位论文全文数据库 前10条
1 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
2 蒋永国;面向传感网的海洋观测数据集成关键技术研究[D];中国海洋大学;2010年
3 杨喜敏;面向多视点设计的EIS访问控制技术研究[D];华中科技大学;2010年
4 刘杰;面向数据集成的数据清理关键技术研究[D];中国科学技术大学;2010年
5 江颉;面向电子服务的访问控制关键技术研究[D];浙江大学;2010年
6 陈溪源;基于角色的访问控制在分布式环境下应用的关键问题研究[D];浙江大学;2010年
7 李良松;南方红豆杉人工林生长与收益模型研究[D];北京林业大学;2011年
8 赵振南;联合作战信息系统体系结构若干关键技术研究[D];南京理工大学;2010年
9 廖军;公路交通信息资源整合及系统实现研究[D];长安大学;2009年
10 范艳芳;重要信息系统强制访问控制模型研究[D];北京交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
2 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
3 梁大圣;空间数据仓库的设计与构建[D];山东农业大学;2010年
4 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
5 葛迪;ETL技术在交通信息资源整合工程中的应用研究[D];哈尔滨工程大学;2010年
6 毕晓燕;权限控制一致性检测的研究与实现[D];哈尔滨工程大学;2010年
7 张志强;数据集成技术及其应用研究[D];哈尔滨工程大学;2010年
8 张士军;基于随机游走的网页协同排序算法研究[D];大连理工大学;2010年
9 杨帅;电子政务中面向组织协作的访问控制模型研究[D];大连理工大学;2010年
10 张蕾;天津港煤炭货运管理系统的设计与实现[D];大连海事大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 尤欣;;ETL技术在商业智能中的应用[J];电脑应用技术;2008年03期
2 周丽娟,邓颖,马春英,柳池;数据仓库技术和OLAP研究[J];佳木斯大学学报(自然科学版);2001年03期
3 鲍玉斌;孙焕良;冷芳玲;王大玲;于戈;;数据仓库环境下以用户为中心的数据清洗过程模型[J];计算机科学;2004年05期
4 朱小栋;樊重俊;杨坚争;;面向机场场区管理的数据挖掘系统[J];计算机工程;2012年03期
5 喻钢,周定康;联机分析处理(OLAP)技术的研究[J];计算机应用;2001年11期
6 王淑营;;面向制造业产业链协同商务系统的数据交换适配器研究[J];计算机应用研究;2009年01期
7 刘洋;毕红军;路静;;ETL系统的研究与实现[J];内蒙古科技与经济;2008年20期
8 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
9 戴浩;杨波;;ETL中的数据增量抽取机制研究[J];计算机工程与设计;2009年23期
10 苏晖;;汽车营销将进入信息化时代[J];汽车观察;2011年12期
中国博士学位论文全文数据库 前6条
1 刘杰;面向数据集成的数据清理关键技术研究[D];中国科学技术大学;2010年
2 张旭峰;ETL若干关键技术研究[D];复旦大学;2006年
3 周伟;基于网络的协同设计系统数据交换及管理关键技术研究[D];重庆大学;2007年
4 杨鸿宾;分析型CRM下的移动数据产品精确营销应用研究[D];北京邮电大学;2009年
5 宋旭东;企业集团数据仓库系统关键技术研究[D];大连理工大学;2010年
6 胡健;面向企业关系价值分析的数据挖掘方法研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 郭军军;个性化职位推荐系统研究与实现[D];西安电子科技大学;2009年
2 刘欢;职位匹配系统的设计与实现[D];华东师范大学;2011年
3 方红萍;数据仓库应用技术的研究与实现[D];武汉科技大学;2002年
4 单友成;CRM理论及应用研究[D];天津大学;2003年
5 胡常忠;数据仓库技术在CRM中的应用与研究[D];四川大学;2004年
6 吴远红;ETL执行过程的优化研究[D];东南大学;2006年
7 张超;ETL过程改进的研究[D];东南大学;2006年
8 于立;ETL关键技术研究[D];东南大学;2005年
9 杨凌霄;面向数据仓库和数据整合的ETL系统的设计和实现[D];山东大学;2008年
10 仲洋;面向汽车营销的客户管理模型与算法的设计与实现[D];吉林大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 赵会群,徐凌宇,王国仁,高远;软件体系结构一致性仿真测试[J];东北大学学报;2001年06期
2 林闯,杨士强;多服务器多队列系统调度方案的性能分析[J];电子学报;2000年05期
3 王存思,黄庆荣,傅清祥;异构数据库间的数据复制技术及其应用[J];福州大学学报(自然科学版);2001年03期
4 薛永生,胡建宇;开放式台湾海峡GIS设计方案[J];海洋科学;2000年09期
5 陈松;构件化程序开发模式[J];计算机工程与应用;1999年09期
6 袁小玲,吴业福;组件技术──企业管理信息系统开发的新曙光[J];计算机工程与应用;1999年09期
7 梁鹰,罗伟其;异构数据库的数据转换在大型信息系统中的实现[J];计算机工程与应用;2000年09期
8 沈达阳;孙茂松;;万维网知识挖掘方法的研究[J];计算机科学;2000年02期
9 吉根林;孙志挥;;数字地球的建设与应用前景[J];计算机科学;2000年08期
10 赵洋;蔡志旻;金浩;潘金贵;;一个基于对象、域和型的层次式程序表示模型[J];计算机科学;2003年04期
【相似文献】
中国期刊全文数据库 前10条
1 李志辉;;ETL实施的数据质量问题研究[J];电脑知识与技术(学术交流);2006年26期
2 王黎峰;;面向中小企业的数据仓库架构设计与实现[J];农业网络信息;2009年12期
3 刘洋;毕红军;路静;;ETL系统的研究与实现[J];内蒙古科技与经济;2008年20期
4 毕锟;刘军;;ETL系统的设计及其研究[J];软件导刊;2010年05期
5 吴莹莹;;浅议企业数据仓库的实现模式[J];电脑知识与技术;2010年08期
6 金明;;企业数据仓库的ETL技术[J];电力信息化;2010年09期
7 宋杰;王大玲;鲍玉斌;于戈;;一种元数据驱动的ETL方法的研究[J];小型微型计算机系统;2007年12期
8 高小飞;冯杰;;一种决策树算法在数据仓库ETL中的应用与研究[J];计算机与现代化;2009年04期
9 肖国荣;;银行信用评估系统数据质量分析方法研究[J];福建电脑;2006年08期
10 王亮;葛玮;;ETL过程的思考[J];计算机技术与发展;2008年10期
中国重要会议论文全文数据库 前10条
1 张卫华;方幼林;杨冬青;唐世渭;余立波;付强;;数据仓库ETL过程支撑框架研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 毛明志;黄春贤;;一种新的数据仓库ETL框架及其应用[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 严哲南;楼荣生;;窗口算法问题的解决方案[A];第十六届全国数据库学术会议论文集[C];1999年
4 杨崇联;谢旭升;;基于数据仓库的政府决策支持服务系统研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 刘刚;付忠广;申鹏飞;郑玲;靳涛;;基于发电厂机组数据仓库的数据挖掘系统的研究[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
6 姚卿达;屈定春;;联邦数据库互操作方法在数据仓库中的应用[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
7 唐蕾;张剡;柏文阳;徐洁磐;;数据仓库工具集NGDW-1的设计与实现[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 廖燕玲;卢语丹;阮艳萍;高丽金;;高校教学决策支持系统的数据仓库研究[A];Proceedings of 2010 National Vocational Education of Communications and Information Technology Conference (2010 NVCIC)[C];2010年
9 宋擒豹;沈钧毅;;数据仓库体系结构研究[A];第十六届全国数据库学术会议论文集[C];1999年
10 刘伟宏;李晋晋;何瑷;徐洁磐;;数据仓库及其在OMNIX中的实现[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 段云峰 杨凤年 宋俊德;数据仓库必不可少[N];计算机世界;2002年
2 ;“快钱”的速度[N];网络世界;2005年
3 ;IBM DB2商业智能软件[N];中国计算机报;2007年
4 刘庆;颗粒归“仓”,刀枪入“库”[N];网络世界;2006年
5 本报记者 赵晓涛;中国人保试点数据仓库[N];网络世界;2004年
6 本报记者 潘永花;实时企业的决策引擎[N];网络世界;2005年
7 邹大斌;关注商业智能的性能[N];计算机世界;2007年
8 ;数据仓库向外部用户开放[N];网络世界;2007年
9 本报记者 谌力;心甘情愿的“不归路”[N];网络世界;2005年
10 ;企业范围内部署BI效果更佳[N];网络世界;2010年
中国博士学位论文全文数据库 前10条
1 宋杰;面向多类型数据源的数据仓库构建及ETL关键技术的研究[D];东北大学;2008年
2 孟京辉;经营单位级森林经营数据仓库研建及应用研究[D];中国林业科学研究院;2011年
3 朱传华;三峡库区地质灾害数据仓库与数据挖掘应用研究[D];中国地质大学;2010年
4 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
5 克里木;自适应数据仓库系统的研究与实现[D];大连理工大学;2003年
6 李泽海;数据仓库中多维数据处理与查询相关技术的研究[D];吉林大学;2005年
7 张旭峰;ETL若干关键技术研究[D];复旦大学;2006年
8 曹恒;北京市房山区环境污染突发事件应急决策支持系统研究[D];北京林业大学;2012年
9 陈金玉;数据仓库实体化视图联机—致性维护研究[D];重庆大学;2002年
10 徐小博;客户关系管理系统的安全防护机制[D];吉林大学;2012年
中国硕士学位论文全文数据库 前10条
1 张艳;维度建模在电信数据仓库中的应用[D];西安电子科技大学;2010年
2 蒋昙飞;面向社区服务的数据仓库关键技术研究与实现[D];西安电子科技大学;2009年
3 文宇;点击流数据仓库在电子商务中的应用研究[D];电子科技大学;2009年
4 张军玲;数据仓库在电信综合运营支撑系统中的应用[D];西安电子科技大学;2009年
5 龙涛;改善数据仓库中数据质量的方法与应用[D];湖南大学;2009年
6 陈思维;基于数据仓库的区域环境质量预测分析系统[D];电子科技大学;2010年
7 彭辛庚;电信企业数据仓库经营分析系统的设计与实现[D];湖南大学;2009年
8 赵在宽;基于数据仓库的气象干旱指标挖掘研究与实现[D];解放军信息工程大学;2009年
9 李慧;基于数据仓库的图书馆决策支持系统[D];天津大学;2010年
10 袁玮;新疆联通经营分析系统中数据仓库的应用[D];电子科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026