收藏本站
《东华大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于数据仓库的数据清洗方法研究

周芝芬  
【摘要】: 在当今世界,企业信息化的要求越来越迫切,其中一个重要的的方面就是企业的数据的管理,根据“进去的是垃圾,出来的也是垃圾、(garbage in,garbage out)”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有错误,能准确地反映企业的实际情况,因此企业数据质量的管理正在获得越来越多的关注。数据清洗是提高数据质量的重要途径。 数据仓库的应用是企业信息化程度的重要体现。数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据集合。它是决策支持的基础,数据仓库中数据的正确性对于避免做出错误的决策是至关重要的。但是,由于数据仓库中的数据来自多种业务数据源,这些数据源可能是存储在不同的硬件平台上,使用不同的操作系统,因而从这些数据源中获取来的数据中不可避免地存在一些不一致的数据。数据清洗的目的就是要解决由上述原因产生的数据质量问题,因此数据清洗被认为是建立数据仓库所要解决的最重要的问题之一。数据质量问题中的一种常见情况是一个现实实体可能由多个不完全相同的记录来表示,这样的记录被称作相似重复记录(approximately duplicated records)。检测和消除相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。探测相似重复记录的过程也被称为记录匹配过程。 本文在对当前的数据清洗问题,特别是探测和消除重复记录方面,做了充分的研究后,提出了基于RDBMS的记录匹配方法和消除数据仓库中相似重复记录的方法,以期消除数据仓库中的相似重复记录。通过大数据量的实验,证明本文提出的消除相似重复记录的方法是行之有效的。
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP311.13

手机知网App
【引证文献】
中国期刊全文数据库 前3条
1 肖蕾;郭乐江;胡亚慧;程敏;;基于遗传神经网络的相似重复记录检测方法研究[J];舰船电子工程;2011年02期
2 王芳云;吴广山;徐俊刚;;税务数据整合中的数据质量问题[J];信息技术与信息化;2006年04期
3 王曰芬;章成志;张蓓蓓;吴婷婷;;数据清洗研究综述[J];现代图书情报技术;2007年12期
中国博士学位论文全文数据库 前1条
1 陈卫东;数据质量模型及关系代数运算下质量传递理论与方法研究[D];国防科学技术大学;2007年
中国硕士学位论文全文数据库 前5条
1 李俊娴;基于预处理技术的数据清理系统研究与实现[D];南京航空航天大学;2007年
2 刘新波;卷烟生产经营决策管理系统数据采集方案设计与实现[D];西安电子科技大学;2006年
3 钟华强;商业银行数据质量管理系统的研究和实现[D];厦门大学;2009年
4 李娜;生产过程数据仓库ETL模块的研究与开发[D];华北电力大学(北京);2010年
5 刘斌;数据预处理中粗糙集理论的应用研究[D];合肥工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陈伟,丁秋林;一种XML相似重复数据的清理方法研究[J];北京航空航天大学学报;2004年09期
2 陈伟,丁秋林;具有数据清理功能的交互式数据迁移及应用[J];吉林大学学报(信息科学版);2004年02期
3 刘永;信息构建与信息质量[J];档案管理;2005年01期
4 陈伟;丁秋林;;可扩展数据清理软件平台的研究[J];电子科技大学学报;2006年01期
5 孔庆芸;Java语言与数据库的接口——JDBC的技术原理与实现[J];电脑与信息技术;2000年02期
6 陈伟,丁秋林;数据清理中编辑距离的应用及Java编程实现[J];电脑与信息技术;2003年06期
7 林迅;;整合数据库访问接口[J];电脑知识与技术(学术交流);2007年10期
8 韦良;;粗糙集理论及其应用与发展研究[J];电脑知识与技术;2008年28期
9 黄孝彬,刘吉臻,牛玉广;主元分析方法在火电厂锅炉过程故障检测中的应用[J];动力工程;2004年04期
10 蹇浪;付忠广;刘刚;申鹏飞;郑玲;;电站机组数据仓库的建设及其关键技术[J];动力工程;2008年04期
中国博士学位论文全文数据库 前4条
1 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年
2 黄孝彬;火电厂控制系统故障检测与诊断的研究[D];华北电力大学(河北);2004年
3 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
4 李利平;火电机组节能在线分析与智能运行优化方法研究[D];华北电力大学(河北);2007年
中国硕士学位论文全文数据库 前10条
1 黄庚保;基于流程的质量数据研究[D];重庆大学;2002年
2 徐静;质量驱动的数据仓库三层体系结构[D];中国海洋大学;2003年
3 刘少雄;基于XML的空间元数据管理系统的研究与设计[D];中国地质大学;2003年
4 和春慧;数据仓库中数据预处理的研究与算法实现[D];吉林大学;2004年
5 杨春保;基于电信数据仓库的ETL元数据研究与实现[D];昆明理工大学;2004年
6 熊霞;数据仓库中数据质量控制问题研究[D];武汉大学;2004年
7 连仁包;通用ETL技术的研究与实现[D];福州大学;2005年
8 高晓兵;基于数据仓库的质量信息系统关键技术研究[D];西北工业大学;2005年
9 周奕辛;数据清洗算法的研究与应用[D];青岛大学;2005年
10 孙娜;电力系统设备数据仓库的设计开发[D];华北电力大学(河北);2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 彭永红;张臣;;基于神经网络的态势预测方法研究[J];舰船电子工程;2012年03期
2 叶鸥;张璟;李军怀;;中文数据清洗研究综述[J];计算机工程与应用;2012年14期
3 曹建军;刁兴春;汪挺;王芳潇;;领域无关数据清洗研究综述[J];计算机科学;2010年05期
4 曹建军;刁兴春;陈爽;邵衍振;;数据清洗及其一般性系统框架[J];计算机科学;2012年S3期
5 王曰芬;;面向知识服务的信息分析及应用研究——以文献数据库为来源[J];情报理论与实践;2011年03期
6 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[J];中国索引;2012年01期
7 杨莹;罗宏;;CALIS高校学位论文数据库数据质量分析——以四川大学学位论文数据库为例[J];四川图书馆学报;2012年03期
8 叶焕倬;吴迪;;相似重复记录清理方法研究综述[J];现代图书情报技术;2010年09期
9 叶焕倬;吴迪;;基于改进编辑距离的相似重复记录清理算法[J];现代图书情报技术;2011年Z1期
10 周健昌;卜媛媛;;条件函数依赖及其在领域无关数据清洗中的应用[J];微型电脑应用;2012年09期
中国重要会议论文全文数据库 前1条
1 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
中国硕士学位论文全文数据库 前10条
1 蒋楠;基于CWM的ETL在数据中心中的应用研究[D];东华大学;2011年
2 梁懿;应用于数据质量核查的几项数据挖掘技术研究[D];西南交通大学;2011年
3 刘铮;基于XML的数据预处理关键技术研究及应用[D];解放军信息工程大学;2010年
4 高旻;多源数据清洗策略研究及在财政部门预算中的应用[D];解放军信息工程大学;2009年
5 魏薇;无线电监测数据的采集及分析系统的设计与实现[D];哈尔滨工业大学;2011年
6 郭荣光;基于物联网的烟草流通流程优化研究[D];中山大学;2011年
7 郑雪松;基于域的中文数据清理系统分析与设计[D];北京林业大学;2008年
8 李成赞;森林病虫害诊断及害虫预报专家系统的研建[D];北京林业大学;2009年
9 杨凡涛;关于省级数据集中后税收数据质量管理与应用研究[D];中国海洋大学;2009年
10 潘沁悦;城市网格化管理系统中的地理编码研究[D];华东师范大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 高云霞,缪相林,王军民,郑刚;CRM系统中数据仓库的设计和实现[J];计算机工程与设计;2004年12期
2 张枢;;基于数据仓库的数据清洗算法研究[J];煤炭技术;2010年07期
3 牛田;谢文阁;;高校就业数据仓库的研究[J];科技信息;2010年25期
4 田芳;刘震;;数据仓库清洗技术讨论[J];青海师范大学学报(自然科学版);2005年04期
5 周东山;李喜英;;数据仓库建设中数据质量问题的研究[J];华南金融电脑;2007年07期
6 王智超,王炎初,杨静,樊莉萍,戴坚,周庆安;ECAS数据仓库中数据集成的相关问题[J];计算机应用研究;2002年11期
7 王曰芬;章成志;张蓓蓓;吴婷婷;;数据清洗研究综述[J];现代图书情报技术;2007年12期
8 喻金平,徐琴;基于SOM网络聚类的数据清洗技术[J];科技广场;2005年08期
9 刘玉;陈金雄;;数据仓库中的数据清洗[J];医学信息;2008年11期
10 张永;迟忠先;;位置编码在数据仓库ETL中的应用[J];计算机工程;2007年01期
中国重要会议论文全文数据库 前10条
1 毛明志;黄春贤;;一种新的数据仓库ETL框架及其应用[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
2 柏林;肖宇琰;陈泽晖;陈竞先;应明幼;;企业数据质量门户:信息参考库方法[A];2005年中国机械工程学会年会论文集[C];2005年
3 宋擒豹;沈钧毅;;数据仓库体系结构研究[A];第十六届全国数据库学术会议论文集[C];1999年
4 张卫华;方幼林;杨冬青;唐世渭;余立波;付强;;数据仓库ETL过程支撑框架研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 吕琳;朱东华;刘玉琴;;面向数据仓库的数据预处理研究综述[A];2007年中国智能自动化会议论文集[C];2007年
6 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
7 严哲南;楼荣生;;窗口算法问题的解决方案[A];第十六届全国数据库学术会议论文集[C];1999年
8 杨崇联;谢旭升;;基于数据仓库的政府决策支持服务系统研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 刘刚;付忠广;申鹏飞;郑玲;靳涛;;基于发电厂机组数据仓库的数据挖掘系统的研究[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
10 姚卿达;屈定春;;联邦数据库互操作方法在数据仓库中的应用[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
中国重要报纸全文数据库 前10条
1 ;向数据质量要答案[N];网络世界;2005年
2 黄平;如何提升数据仓库的数据质量[N];计算机世界;2005年
3 刘庆;数据质量苦海[N];网络世界;2006年
4 王志强;如何保证企业数据的质量[N];计算机世界;2007年
5 本报记者 谌力;心甘情愿的“不归路”[N];网络世界;2005年
6 中金;上海银行搭建企业级数据仓库平台[N];上海金融报;2007年
7 本报记者 王辉;浙江电信:数据即财富[N];通信产业报;2005年
8 刘庆;架构设计不忽悠[N];网络世界;2006年
9 记者 王志新;移动通信数据仓库联合实验室揭牌[N];中华工商时报;2006年
10 ;数据仓库应用的前提条件[N];中国高新技术产业导报;2000年
中国博士学位论文全文数据库 前10条
1 曹恒;北京市房山区环境污染突发事件应急决策支持系统研究[D];北京林业大学;2012年
2 孟京辉;经营单位级森林经营数据仓库研建及应用研究[D];中国林业科学研究院;2011年
3 朱传华;三峡库区地质灾害数据仓库与数据挖掘应用研究[D];中国地质大学;2010年
4 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
5 克里木;自适应数据仓库系统的研究与实现[D];大连理工大学;2003年
6 宋杰;面向多类型数据源的数据仓库构建及ETL关键技术的研究[D];东北大学;2008年
7 马骋宇;新型农村合作医疗信息系统辅助决策方法及应用研究[D];山东大学;2010年
8 陈金玉;数据仓库实体化视图联机—致性维护研究[D];重庆大学;2002年
9 常建龙;数据流聚类及电信数据流管理[D];复旦大学;2008年
10 徐小博;客户关系管理系统的安全防护机制[D];吉林大学;2012年
中国硕士学位论文全文数据库 前10条
1 周芝芬;基于数据仓库的数据清洗方法研究[D];东华大学;2004年
2 梁文斌;数据清洗技术的研究及其应用[D];苏州大学;2005年
3 于海峰;基于数据仓库的银行客户关系管理系统的研究[D];合肥工业大学;2004年
4 周宏广;异构数据源集成中清洗策略的研究及应用[D];中南大学;2004年
5 王宁;基于Web Service信息集成系统的数据清洗研究[D];西安电子科技大学;2007年
6 廉博;数据仓库中ETL技术的研究与实现[D];沈阳工业大学;2006年
7 李英俊;汽车销售系统数据仓库解决方案[D];山东大学;2005年
8 谭亚竹;基于XML数据清洗的应用研究[D];重庆大学;2006年
9 龙涛;改善数据仓库中数据质量的方法与应用[D];湖南大学;2009年
10 徐静;质量驱动的数据仓库三层体系结构[D];中国海洋大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026