收藏本站
《中国科学院研究生院(计算技术研究所)》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

数据仓库环境中近似查询处理技术研究

冯玉  
【摘要】: 在数据仓库上的许多决策支持应用需要在大数据量上进行复杂的查询,由于大数据量以及查询的复杂性使得一个查询的执行通常需要很长时间,显然不能满足用户的需求,有时为了提高系统的响应时间,用户可以容忍一些查询结果的精度,因此近似查询处理技术成为有效解决这一问题的方法。 数据仓库环境中的许多应用模式都对近似查询技术提出需求。例如,我们在做OLAP分析时,在一个钻取(drill-down)查询序列中,最初查询的目的就是为了决定我们真正感兴趣的数据,给这些查询提供快速、近似的查询结果可以使用户尽快找到有用的数据。在数据仓库上的许多决策支持应用中的查询目的着重于分析数据间的关联关系或发展趋势,有时在做聚集集查询时,对查询结果的要求并不需要精确到小数点。 本文主要研究在数据仓库环境中的近似查询处理技术,根据数据仓库中数据和OLAP查询的特点,提出了基于聚类技术的近似查询处理方法(Cluster-based Approximate Query Processing method,简记为CAQP),其主要思想是对数据仓库中数据方体的数据进行分块,每块数据相当于多维空间中的一个点,采用聚类技术对数据方体中的这些数据块聚类,对于每个cluster,使用其中心点的值代表其中所有的数据块,对数据方体进行压缩,以后的查询操作则直接在压缩的数据结构上进行,减少查询处理时的I/O开销,从而提高查询性能。 本文首先对聚类技术进行了深入的研究,提出了基于方格和密度的新聚类算法SCARG,它的基本思想是把整个数据空间划分成矩形区域,如果一个区域的密度大于一个阀值,则该区域是一个密集区域,把所有相关联的密集区域连接起来,构成一个Cluster。本文采用移动中心点的技术,对聚类结果进一步细化,提高聚类的精度。SCARG算法兼具了基于方格算法的处理速度和基于密度方法处理任意形状cluster的能力。本文还通过人工合成数据和Benchmark数据进行实验,与其它著名的聚类算法(DBSCAN,CLARANS)对比,验证了SCARG算法的有效性和性能。同时,本文还给出了SCARG算法的并行版本PSCARG,该算法充分利用硬件资源,进一步提高了对海量数据的处理能力。 本文在深入研究了聚类技术的基础上,又对基于聚类的近似查询处理的关键技术进行研究,即对于数据仓库中的数据,如何采用聚类技术进行近似查询处理,主要包括数据的预处理、聚类的分层计算以及数据的增量维护算法等。针对数据仓库上的常用操作,本文设计了数据的存储结构,给出了在数据方体压缩结构上进行查询处理的算法,并给出了对查询结果集置信区间的估算方法,并通过实验与抽样技术对比,说明了CAQP方法的有效性和可扩展性。 本文对近似扩展数据方体技术进行了研究。近似扩展数据方体是由2n-1个子方体组
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:2002
【分类号】:TP311.13

【引证文献】
中国硕士学位论文全文数据库 前3条
1 彭璐;基于数据仓库的ETL及OLAP的理论研究[D];武汉理工大学;2008年
2 关春艳;基于数据仓库技术的污染物总量控制模型设计与实现[D];电子科技大学;2008年
3 张霄雁;Web数据库柔性查询结果自动排序方法研究[D];东北大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 高志明,关岩,于洪梅,吴秀红,李井会;人工神经网络在化学中的应用进展[J];鞍山钢铁学院学报;2000年03期
2 万春红;邵超;;一种新的基于自组织映射的流形学习算法[J];北京交通大学学报;2009年06期
3 王新军;卿华;姚娇艳;;流水线加工调度问题的神经网络算法[J];兵工自动化;2011年10期
4 陶兰;;Kohonen神经网络模型在柑桔区域规划专家系统中的应用[J];北京农业工程大学学报;1993年01期
5 杜大鹏;穆志纯;陈静;方新;;一种用于模拟汉字认知过程的多层自组织神经网络[J];北京科技大学学报;2007年01期
6 许俊刚,柯有安;自组织神经网络雷达目标识别的研究[J];北京理工大学学报;1992年03期
7 黄儒乐;吴江;韩宁;;林火烟雾图像自动识别中的模式分类器选择[J];北京林业大学学报;2012年01期
8 刘杏芳;郑晓东;徐光成;王玲;杨昊;;基于LLE方法的地震属性特征提取技术及其应用(英文)[J];Applied Geophysics;2010年04期
9 林玎;刘伟;张治国;;自组织特征映射神经网络在厄尔尼诺事件检验中的应用[J];吉林大学学报(地球科学版);2006年04期
10 梁艳春,聂义勇;从科学研究方法论看人工神经网络研究的发展[J];吉林大学学报(信息科学版);2002年01期
中国重要会议论文全文数据库 前7条
1 贾允毅;胥布工;王世华;刘步春;;端对端网络时钟漂移补偿算法研究及其实现[A];第二十六届中国控制会议论文集[C];2007年
2 ;A Neural Network Algorithm for the (m,d)-Coloring Problem of a Graph[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
3 蔡中华;;自组织映射(SOM)在研究地区产业结构聚类分析的应用[A];第九届中国青年信息与管理学者大会论文集[C];2007年
4 ;A hybrid of fuzzy-link clustering and classification for seismic data[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
5 梁霞;梁循;;互联网金融文本信息关键词形态挖掘[A];第六届全国信息检索学术会议论文集[C];2010年
6 Simon X.Yang;Max Q.-H.Meng;;An Improved Self-Organizing Map Neural Network Approach to Path Planning of a Multi-robot System[A];2003年中国智能自动化会议论文集(上册)[C];2003年
7 韩红桂;乔俊飞;;一种自组织模糊神经网络研究[A];2007年中国智能自动化会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 李曼荔;求解组合优化问题的神经计算方法[D];电子科技大学;2010年
2 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
3 吕琳;天然气水合物(地球物理属性)的神经网络识别方法及软件开发[D];吉林大学;2011年
4 雷迎科;流形学习算法及其应用研究[D];中国科学技术大学;2011年
5 梁涛;批处理过程生产调度自组织优化方法[D];山东大学;2011年
6 王飞;入侵检测分类器设计及其融合技术研究[D];南京理工大学;2011年
7 姜建华;虚拟企业环境下订单驱动的任务管理机制研究与实践[D];武汉理工大学;2011年
8 戴群;基于ICBP模型的混合神经网络与多样化集成方法的研究[D];南京航空航天大学;2009年
9 彭志威;基于计算流体力学的虹吸式流道形状优化设计[D];湖南大学;2009年
10 乔立山;基于图的降维技术研究及应用[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
2 Rojanakat Payomrat;基于神经网络的双目视差估计[D];哈尔滨工程大学;2010年
3 刘振广;一种改进的k_means聚类算法研究[D];哈尔滨工程大学;2010年
4 辛涛;基于混合神经网络的视频序列压缩与加密算法研究[D];大连理工大学;2010年
5 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
6 王冬秀;基于衰减窗口与剪枝链表树的高维数据流聚类算法研究[D];华东师范大学;2010年
7 杨彦玲;一种基于GWRN模型的自组织神经网络算法的研究及应用[D];南昌大学;2010年
8 王莉莉;图书报刊销售管理信息系统的设计与实现[D];电子科技大学;2010年
9 倪俊;移动通信网络优化系统的研究与实现[D];电子科技大学;2010年
10 王云锋;数据挖掘技术在中测数据分析中的应用[D];电子科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 孟祥福;马宗民;严丽;;数据库模糊查询结果自动排序方法[J];东北大学学报(自然科学版);2008年07期
2 孟祥福;马宗民;严丽;张霄雁;;一种基于知识的关系数据库模糊查询方法[J];东北大学学报(自然科学版);2009年03期
3 韦洛霞;数据仓库与OLAP[J];东莞理工学院学报;2000年02期
4 连仁包;曾光清;;数据集成中数据清洗模型的研究[J];福建电脑;2007年02期
5 王宜贵;数据仓库中聚簇索引的优化方法[J];山东交通学院学报;2005年01期
6 李建中;基于多重加权树的并行数据库查询优化方法[J];计算机学报;1998年05期
7 张德,董逸生;Internet上的数据库联合查询优化[J];计算机学报;2000年02期
8 邱越峰,田增平,季文贇,周傲英;一种高效的检测相似重复记录的方法[J];计算机学报;2001年01期
9 程国达,苏杭丽;一种检测汉语相似重复记录的有效方法[J];计算机应用;2005年06期
10 张永;迟忠先;闫德勤;;数据仓库ETL中相似重复记录的检测方法及应用[J];计算机应用;2006年04期
中国博士学位论文全文数据库 前1条
1 张旭峰;ETL若干关键技术研究[D];复旦大学;2006年
中国硕士学位论文全文数据库 前10条
1 周宏广;异构数据源集成中清洗策略的研究及应用[D];中南大学;2004年
2 周奕辛;数据清洗算法的研究与应用[D];青岛大学;2005年
3 万铮;基于数据仓库的OLAP系统的设计与实现[D];西南交通大学;2005年
4 喻兴标;基于OLAP的数据仓库索引技术研究[D];中南大学;2005年
5 张娟;基于数据仓库的数据追加技术的研究与应用[D];南昌大学;2006年
6 侯筱婷;基于数据仓库、OLAP和数据挖掘技术的数据分析、展现与预测[D];西安电子科技大学;2007年
7 洪佳;OLAP系统的查询性能研究[D];天津工业大学;2007年
8 林昕;基于维层次聚类的OLAP存储结构的研究[D];合肥工业大学;2007年
9 夏雨;基于主题集成的多维数据模型和OLAP分析[D];重庆大学;2007年
10 杨宏娜;基于数据仓库的数据清洗技术研究[D];河北工业大学;2006年
【二级引证文献】
中国硕士学位论文全文数据库 前7条
1 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
2 段艳鸽;电信综合话务数据仓库的研究与设计[D];西南财经大学;2010年
3 黄国军;基于数据仓库的药品监管辅助决策支持系统的设计与实现[D];浙江工业大学;2011年
4 周文渊;电信行业经营分析系统的设计[D];中南大学;2009年
5 马鑫;电力数据中心生产可靠性分析系统的设计与实现[D];东北大学 ;2009年
6 赵艳;基于数据仓库的霍州煤电统计分析系统设计与实现[D];河北工程大学;2012年
7 梁新民;基于OLAP的钢铁物流企业销售系统设计与实现[D];电子科技大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 刘明吉,张晓京,刘洪杰,王秀峰,王治宝;数据仓库在证券交易中的研究与应用[J];计算机工程;2000年02期
2 陶再平,陈奇,俞瑞钊;数据仓库在企业中应用的研究[J];计算机工程;2000年07期
3 赵玉源,梁阿磊,白英彩;一种数据仓库联机维护算法[J];计算机工程;2000年08期
4 颜端武,张玉峰;数据仓库的成本效益分析与风险管理研究[J];情报科学;2000年09期
5 陈建平;数据仓库的管理与使用[J];长春邮电学院学报;2000年03期
6 马洪江;浅论数据仓库在企业管理决策支持系统中的应用[J];成都大学学报(自然科学版);2000年03期
7 邓文华,梅志红;基于数据仓库的铁路物资管理决策支持系统的研究[J];华东交通大学学报;2000年02期
8 王德军,邹永显;抓住核心 e化银行[J];上海微型计算机;2000年48期
9 唐宏,聂能,熊思民,赵明伟;数据仓库实现技术[J];数字通信;2000年08期
10 赵军,王国胤,吴中福,李华;数据仓库及其实现[J];数字通信;2000年08期
中国重要会议论文全文数据库 前10条
1 李洁;李庆忠;王海洋;;一种有效的在线修改数据仓库算法[A];第十六届全国数据库学术会议论文集[C];1999年
2 冯建华;蒋旭东;刘建民;周立柱;;面向市场分析与预测的数据仓库平台[A];第十六届全国数据库学术会议论文集[C];1999年
3 王晓玲;谢鸿强;刘安;董逸生;;数据仓库建模工具的研制[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 张德辉;李建中;;多维压缩数据仓库上的并行聚集算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 潘海为;李建中;;数据仓库的并行加载算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 宋荷庆;胡华;;在证券公司业务中建造数据仓库[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
7 隋琪;王海洋;;一种基于数据仓库的服务评估方法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
8 宋国杰;杨冬青;林子雨;唐世渭;王腾蛟;谢昆青;;实时主动数据仓库的概念、问题及应用[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
9 杜鹢;宋自林;;虚拟数据仓库的研究与应用[A];第十五届全国数据库学术会议论文集[C];1998年
10 程永生;乐嘉锦;;数据仓库:数据的提取与转化[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
中国重要报纸全文数据库 前10条
1 首之;银行业数据仓库技术应用亟待起步[N];金融时报;2005年
2 ;数据仓库解决方案[N];中国计算机报;2002年
3 中国人民大学数据仓库与商务智能工程研究中心 $$  中国人民大学数据与知识工程研究所王珊、谢佳明、陈红、刘中蔚、邵琦洪、张宁;创建数据仓库:要面向三条路线[N];中国计算机报;2002年
4 IBM 软件 Barry Devlin 博士;信息集成——数据仓库架构的扩展[N];中国计算机报;2003年
5 李军;数据仓库新增长点在哪里?[N];中国计算机报;2004年
6 段云峰 杨凤年 宋俊德;数据仓库必不可少[N];计算机世界;2002年
7 文武;数据仓库助大鹏转型[N];计算机世界;2003年
8 ;数据仓库实施的“新浪潮”[N];计算机世界;2005年
9 本报记者 侯闯;竞争压力推动数据仓库应用[N];计算机世界;2005年
10 本报记者 程亮;数据仓库人才紧缺[N];人才市场报;2005年
中国博士学位论文全文数据库 前10条
1 宋旭东;企业集团数据仓库系统关键技术研究[D];大连理工大学;2010年
2 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
3 冯玉;数据仓库环境中近似查询处理技术研究[D];中国科学院研究生院(计算技术研究所);2002年
4 孙剑;海洋环境数据仓库与数据挖掘应用研究[D];中国海洋大学;2011年
5 栗然;电力负荷分析与预测的分布式数据仓库和数据挖掘研究[D];华北电力大学(河北);2009年
6 李学锋;矿山企业数据仓库的应用研究[D];昆明理工大学;2005年
7 马军杰;基于数据仓库与联机处理的区域经济发展管理决策支持系统研究[D];华东师范大学;2007年
8 陈金玉;数据仓库实体化视图联机—致性维护研究[D];重庆大学;2002年
9 朱传华;三峡库区地质灾害数据仓库与数据挖掘应用研究[D];中国地质大学;2010年
10 麦永浩;数据仓库和数据挖掘方法研究及其在公安信息建设中的应用[D];华东理工大学;2000年
中国硕士学位论文全文数据库 前10条
1 孙水华;基于数据仓库的库存分析系统研究与开发[D];中南大学;2008年
2 张腾飞;基于数据仓库的信用信息系统的分析与设计[D];武汉理工大学;2009年
3 李晔锋;数据仓库的存储研究[D];东华大学;2009年
4 朱焱;数据仓库在航空发动机试验中的应用[D];电子科技大学;2008年
5 宋蓉芳;基于分布式数据仓库的网格化负荷预测研究[D];华北电力大学(河北);2008年
6 赵闯;构建数字化校园数据仓库的方案研究[D];东北师范大学;2009年
7 陆琦;点击流数据仓库在智能导学系统中的应用研究[D];东北师范大学;2009年
8 高轶;保险业数据仓库系统的设计及实现[D];北京邮电大学;2009年
9 陆体山;数据仓库在民航客运营销领域中的应用[D];上海交通大学;2008年
10 潘晓辉;人寿保险数据仓库的设计与实现[D];哈尔滨工程大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026