收藏本站
《吉林大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

数据立方计算及其在OLAP MINING中的应用

张晋  
【摘要】:数据仓库(data warehouse)采取一种集中式的结构,它将整个公司的数据统一储存在一个数据库(repository)中。通常,它的数据是以数据立方体(data cube)的方式来出现的,而多维度的储存模式能够对数据做许多不同的查看和各种组合。这些数据就如同一大片森林的众多树木一样,数据管理者必须披荆斩棘,将这些公司数据做一些相关性的组合后才能看到它们内部隐含的意义。 而OLAP则与数据仓库不同,它的程序将商业软件目录化,让用户以数据立方体 (data cube)为单位来进行操作。典型的OLAP运作包含数据的集结(consolidate)、下探(drill-down)(如查询定义)、切片(slice) 、切丁(dice)及枢纽(pivot)。产生的结果既可以用传统的方式也可以用表格化的数据库格式呈现,甚至还可以将它们作成图表。虽然这样的输出可能只是一种固定格式,但它通常允许用户直接操作数据来做进一步的分析,例如验证趋势(trend) 、相关性(correlation)或时间序列(time series)等。使用Web上的应用程序来进行线上分析处理(OLAP,on-line analytical processing),将可以大大增强Web技术的威力。 OLAM的挖掘分析处理是建立在立方体的基础之上的,而且,在实际应用中,尽管OLAM的多维计算可能需要更多的维数和更强大的访问工具,但我们可以断定,用于OLAP的立方体和用于OLAM的立方体之间并没有本质的区别。 我们可以看到,OLAM服务器通过用户图形接口接收用户的分析指令,在元数据的指导下,对超级立方体作一定的操作,然后将挖掘分析结果展现给用户,这个过程是动态的。多维数据视图(超立方体)是OLAM的基础,多维视图的组织方式对于系统的执行效率和响应速度起着至关重要的作用。我们主要通过对数据立方的存储,计算,物化策略三方面对这一技术进行了深入的研究,并取得了满意的效果。 对数据库中一系列复杂表的挖掘,归根结底就是对数据立方体的挖掘计算,在这种情况下一味的要求计算上的精确就有点舍本逐未了,在 WP=51 一定的层次上模糊一下,不仅能提高挖掘的速度,而且准确性上也不会有明显损失。数据压缩是提高多维数据仓库性能的重要途径, 联机分析处理是数据仓库上的主要应用, Cube 操作是联机分析处理中最常用的操作之一. 压缩多维数据仓库上的Cube 算法的研究是数据库界面临的具有挑战性的重要任务. 近年来, 人们在Cube 算法方面开展了大量工作, 但却很少涉及多维数据仓库和压缩多维数据仓库. 本文在深入研究压缩数据仓库的基础上, 通过对数据立方体中各元素值的观察,我们发现它们相互之间存在很大的相似性。 提出了压缩多维数据仓库的Cube 算法. 所提出的Cube 算法直接在压缩数据上执行Cube 操作, 无须反压缩, 提高了Cube 的处理速度. 聚集计算是一种在决策支持系统中占主导地位的操作,数据立方也称之为多维数据库,是一种常用的技术.它的重要思想是把那些代价昂贵的常用运算如:Count、Sum、Average、Max、Min等聚集函数预先计算出结果,并根据不同的属性分类存储在一个多维数据库中.如时间量可以按日、星期、月、年分别汇总并存入数据库中为决策支持、数据采掘及其它应用服务。在进行数据立方体计算时,很多人都有使用传统的pipeline和 pipehash方法,而我们利用一种叫做hybrid-tree(h-tree)的数据结构,经过对这一结构(h-tree)的特性的仔细分析,我们将这种结构成功的应用到数据立方体的计算中。 经过观察可以发现,在文中的示例表中,每种车型每年都有销售量,同样每种颜色每年都有销售量,这样车型和颜色就会在表中不断的出现多次重复,同样model和color的组合值也会与多个时间相关,因此该数据立方中存在大量冗余数据。基于以上的观察结果,我们将属性维划分为两种,一种称为划分维,我们将(model, color)作为划分维。另一种属性维称作非划分维,我们将(year)作为非划分维。由此可见经过以上的划分,可大量减少冗余数据,最重要的是可以减少实例化的视图的个数,经过计算,针对sales表计算数据立方所要实例化的视图的个数将会减少一半。这样不仅大大减少了存储空间,而且加快了计算速度,相应的也就减少维护阶段所花费的时间。 当记录相当多时,完全物化代价仍然太高昂,有时甚至是具有不可想象的时间和空间复杂性。经过我们的进一步观察,对于key=12的元组 WP=52 的值,实际上通过我们的特殊映射,就是key=1 和key=2的值的和,同样的对于key=13的元组的值,经过特殊映射就是key=1和 key=3的值的和。当将这些复合的物化留到查询时再计算,虽然时间上会有一些小延迟,但由此牺牲换来的存储空间的节省是值得的。于是在四个视图不变的情况下,我们可以将基本综合表进一步的减小到极限。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 郭亚光;寿志勤;刘波;;基于OLAP技术的政府网站评估数据仓库应用研究[J];情报杂志;2011年08期
2 郑丹青;;基于OLAP技术的医疗信息多维数据集设计与分析[J];吉林师范大学学报(自然科学版);2011年03期
3 彭湘凯;陈富强;;商覆盖立方体的一种增量维护策略[J];信息技术;2011年06期
4 徐奇;杨光敏;欧阳学兵;靳志宏;;基于数据仓库的口岸跨境运输决策支持与系统实现[J];交通信息与安全;2011年03期
5 贾生;王宇;;期刊文献数据仓库的设计与实现[J];现代情报;2011年06期
6 吴占锋;胡建华;;基于SOAP压缩的OLAP分析引擎通信性能优化[J];江西科学;2011年03期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 花鸣;王晨;周皓峰;汪卫;施伯乐;;基于审计的OLAP推论控制算法研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 冯玉才;向隆刚;冯剑琳;陈长清;;维上带层次的数据立方的自底向上计算[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
3 印莹;鲍玉斌;赵宇海;孙焕良;于戈;;Q-Dwarf——语义OLAP压缩算法Dwarf的快速实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 李红纲;鲍玉斌;焦洪国;于戈;郑怀远;;维分析树导航下的可视化OLAP分析[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 李骏;乐嘉锦;许淼;;一种面向银行信贷领域的OLAP模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
6 王琢;孙焕良;鲍玉斌;孙华文;于戈;;智能OLAP技术及其在Analysis Services下的实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 曹钰;李涛;张文俊;徐宗昌;;基于DW+OLAP的装备器材保障决策支持系统[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 杨永静;李玉忱;孔斌;;利用OLAP技术进行质量管理分析[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
9 申晓留;白静洁;谭忠富;;应用OLAP分析能源—经济—环境指标间相互关系的研究与实现[A];2010年全国能源环保生产技术会议文集[C];2010年
10 文健;李舟军;;OLAP模型中慢速变化维技术的研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 中国人民大学数据仓库与BI工程研究中心 $$  中国人民大学数据与知识工程研究所王珊、张新宇、陈红;BI三大支柱—DW、OLAP和DM[N];中国计算机报;2002年
2 记者 马文方;微软OLAP市场独占鳌头[N];计算机世界;2003年
3 IDG 电讯;Oracle重命名OLAP[N];计算机世界;2001年
4 木;Oracle9i集群数据库创OLAP新纪录[N];计算机世界;2003年
5 本报记者 马文方;挖掘数据的潜力[N];计算机世界;2002年
6 ;Oracle9i OLAP可伸缩商务智能平台[N];中国计算机报;2002年
7 石竹;BO与Crystal的真正融合[N];计算机世界;2005年
8 易观咨询;蓬勃发展的电信BI市场[N];通信产业报;2004年
9 郑毅;电子商务数据库[N];中国计算机报;2000年
10 易水;计算机专业时文选读(950)[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 颜文跃;浓缩数据立方高效实化和快速查询方法研究[D];华中科技大学;2011年
2 冷芳玲;支持高效查询的数据立方构建技术研究[D];东北大学;2008年
3 郭加树;空间数据仓的构建及应用[D];中国石油大学;2007年
4 杨珂;基于图形处理器的数据管理技术研究[D];浙江大学;2008年
5 王浩;地下工程监测中的数据分析和信息管理、预测预报系统[D];中国科学院研究生院(武汉岩土力学研究所);2007年
6 周丽娟;数据仓库中实视图的选择与维护技术的研究[D];哈尔滨工程大学;2004年
7 徐铭杰;遥感图像数据挖掘体系与实现技术研究[D];中国人民解放军信息工程大学;2003年
8 曹蓟光;联机分析挖掘处理技术(OLAM)的研究[D];浙江大学;2001年
9 周明;基于数据挖掘的制造业采购DSS理论及方法研究[D];天津大学;2009年
10 李川;中医药数据挖掘系统TCMiner设计、实现与核心技术研究[D];四川大学;2006年
中国硕士学位论文全文数据库 前10条
1 张晋;数据立方计算及其在OLAP MINING中的应用[D];吉林大学;2004年
2 左映华;OLAP与数据挖掘一体化研究和应用[D];北方工业大学;2004年
3 陈树胜;数据仓库和OLAP在高校人事信息管理中的应用研究[D];上海师范大学;2010年
4 曾铮;基于OLAP和数据挖掘技术的高考志愿填报方式分析评估方法[D];西南大学;2010年
5 孙月明;港口物流商务智能系统数据仓库和OLAP的设计和实现[D];重庆大学;2010年
6 张选东;面向中小型企业的BI解决方案——基于MS Analysis Services的OLAP Web软件的开发[D];北方工业大学;2003年
7 高居泰;OLAP与数据挖掘一体化研究和应用[D];北方工业大学;2004年
8 蒲晓湘;基于MS Analysis Services的联机分析处理技术应用研究[D];重庆大学;2004年
9 邱怀姗;OLAP和数据挖掘技术在高校科技管理决策中的应用[D];北京化工大学;2003年
10 张小玲;面向中小型企业的BI解决方案——基于MS Analysis Services的OLAP C/S软件的开发[D];北方工业大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026