收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据仓库的数据获取关键技术研究

缪嘉嘉  
【摘要】:数掘获取过程是构建数据仓库的核心和灵魂,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。本文设计并实现了数据获取系统,主要研究数据获取中的两个关键技术:数据源增量数据获取技术和相似重复记录检测技术。 在数据源增量数据获取技术研究中,通过对几种快照差分算法进行理论研究及实验分析,了解掌握了它们的适用范围、处理速度及精度;对于有日志系统支持的数据源,分析了Oracle、SQL Server数据库的日志记录内容,分析了获取增量数据的流程。考虑到WHIPS项目的一些缺陷,做出一些改进:调整了监视对象粒度,支持对某个源表字段的监视,过滤掉那些无关的数据变化,可以提高监视的效率;提供可定义的监视规则,其中包括了检测分析周期等,监视器就按照这些规则检测分析和报送数据源的变化,使得数据仓库更新策略更加符合数据仓库应有的特性。 在重复记录检测方法的研究中,提出一种高效的基于条件概率分布的相似重复记录检测方法,采用二次聚类方法,即首先选用一种低价的距离度量方法将整个数据集划分为几个大类,然后使用更严格的距离度量方法和聚类算法进行分类。使用该方法,对仿真数据进行了实验,获得了比较好的聚类结果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 智爱玲,王朝晖,杨洁;基于数字摄影测量的GIS数据获取[J];现代测绘;2005年03期
2 许文全,何文学,陈国金;基于反求工程的CAD建模[J];模具制造;2005年07期
3 邢锐;石金峰;;面向GIS的大比例尺测图[J];辽宁工程技术大学学报;2006年S1期
4 刘惠敏;;Java控制台数据获取方法及比较[J];电脑编程技巧与维护;2009年06期
5 王颖;吴旻;;快递企业网络广告效果评估的基础数据获取方法[J];电子商务;2007年05期
6 狄彩云;叶泽田;冀翼;侯明辉;;城市空间三维数据信息获取技术[J];地理空间信息;2007年05期
7 尹武良;托尼培东;;一种利用暂态响应分析提高电磁层析成像测量信号信噪比的新方法[J];电子测量与仪器学报;2009年S1期
8 时荣;李冰;禹小伟;;用先进遥感技术服务数字城市建设[J];太原科技;2009年10期
9 陈赵云;董海燕;周永福;;基于.NET Framework的Web管理系统研究与开发(C#)[J];电脑知识与技术;2010年17期
10 李新,胡纫兰,李文学;具有定时功能的简易快接口电路[J];核电子学与探测技术;1988年05期
11 李兴 ,李庆烽;集装箱检测系统的数据获取关键技术研究[J];中国原子能科学研究院年报;2003年00期
12 于欢,武文波;MAPGIS平台下获取地理信息系统数据探讨[J];辽宁工程技术大学学报;2005年S1期
13 黄巧玲;谢维波;;超短期汇率的预测研究[J];计算机应用;2007年04期
14 范海绍;;入侵检测数据的获取和整理探讨[J];计算机应用与软件;2007年06期
15 董海燕;;三层架构Web信息管理系统的研究与设计[J];福建电脑;2011年03期
16 汪学蓉,周敬利,余胜生;一种新型增强型声效卡的开发与研究[J];计算机应用研究;1996年01期
17 翟翊;地理信息系统的发展前景[J];测绘工程;1999年01期
18 全少磊,葛成辉;虚拟地球智能数据获取与存储模型[J];电子商务;1999年05期
19 丁贵;;利用数字摄影测量工作站获取3D产品[J];测绘标准化;2005年03期
20 汤璞;沈洁;;全数字正射影像图的质量控制与评定[J];测绘标准化;2006年03期
中国重要会议论文全文数据库 前10条
1 缪嘉嘉;李爱平;贾焰;吴泉源;;信息集成中数据获取关键技术的研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 初元萍;章红宇;赵京伟;叶梅;陶宁;朱科军;唐素秋;过雅南;;PowerPC对VME插件读出能力的评估[A];第11届全国计算机在现代科学技术领域应用学术会议论文集[C];2003年
3 安少辉;李澄;孙勇杰;邵明;杨一;;采用SCSI接口实现高速在线数据获取[A];第11届全国计算机在现代科学技术领域应用学术会议论文集[C];2003年
4 杨帆;戴玉成;;移动式三维激光数据获取及解算技术研究[A];中国地理学会百年庆典学术论文摘要集[C];2009年
5 王博亮;张业;王嘉逊;谢杰镇;方青;吴世辉;;中国数字人虚拟眼的数据获取与研究进展[A];人体断面数据获取与图像处理研讨会论文汇编[C];2005年
6 赵平平;;校准刻度及逻辑控制插件[A];第十四届全国核电子学与核探测技术学术年会论文集(上册)[C];2008年
7 赵平平;;校准刻度及逻辑控制插件[A];第十四届全国核电子学与核探测技术学术年会论文集(1)[C];2008年
8 尹武良;托尼培东;;一种利用暂态响应分析提高电磁层析成像测量信号信噪比的新方法[A];2009安捷伦科技节论文集[C];2009年
9 敬文涛;;电磁脉冲效应试验数据获取、处理方法研究[A];第十届全国抗辐射电子学与电磁脉冲学术年会论文集[C];2009年
10 于传松;盛俊鹏;何其力;吴喜成;;一种死时间极小的多丝室读出系统[A];第8届全国核电子学与核探测技术学术年会论文集(一)[C];1996年
中国博士学位论文全文数据库 前10条
1 陈静;煤矿生产监测设备数据校正[D];西安科技大学;2012年
2 程宏才;大型物理实验中的通用数据获取平台的研究[D];中国科学技术大学;2012年
3 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
4 翟巍;三维GIS中大规模场景数据获取、组织及调度方法的研究与实现[D];大连理工大学;2003年
5 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
6 刘刚;基于产品形态的生命周期数据闭环管理研究[D];山东大学;2012年
7 王铁强;电力系统低频振荡共振机理的研究[D];华北电力大学;2001年
8 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
9 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
10 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
中国硕士学位论文全文数据库 前10条
1 缪嘉嘉;数据仓库的数据获取关键技术研究[D];国防科学技术大学;2003年
2 张平;海量数据相似重复记录检测的研究[D];桂林电子科技大学;2011年
3 田秀娟;基于相似重复记录合并算法的蔬菜溯源展示系统研究与实现[D];中国海洋大学;2013年
4 戴颖;基于聚类树的相似重复记录检测算法改进研究[D];合肥工业大学;2010年
5 赵东旭;气体中子探测器数据获取与分析软件研制[D];长沙理工大学;2010年
6 张亮;面向电子取证的数据获取方法及实现[D];东北大学;2009年
7 梁懿;应用于数据质量核查的几项数据挖掘技术研究[D];西南交通大学;2011年
8 李建祥;智能网页推荐系统的相关技术研究[D];西南交通大学;2004年
9 田董涛;微博客数据的获取与分析方法研究[D];北京交通大学;2012年
10 买买提依明·哈斯木;基于后缀树的维吾尔文网页聚类算法的设计与实现[D];新疆大学;2011年
中国重要报纸全文数据库 前10条
1 李长安 郭向荣;构筑可视化的航材供应链[N];计算机世界;2005年
2 张鹏;韩国的GIS技术应用和测绘协会[N];中国测绘报;2007年
3 王奇;推动土地科学技术创新[N];中国国土资源报;2006年
4 本报记者 黄穗诚;广东研究基础地理信息系统更新[N];广东建设报;2009年
5 李薇 周信炎;测绘科技:如何自主创新[N];中国测绘报;2006年
6 许泳实习记者 李敬;GIS的应用瓶颈[N];计算机世界;2007年
7 本报记者 孟晶;各方呼吁建立化学品数据共享平台[N];中国化工报;2008年
8 许泳;灾区上空的“天眼”[N];计算机世界;2008年
9 南京邮电学院27# 李建忠;将ASP移植到ASP.Net[N];计算机世界;2001年
10 李包罗;区域卫生信息网络[N];中国计算机报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978