收藏本站
《沈阳航空工业学院》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

ETL过程中的数据清洗技术研究与应用

刘哲  
【摘要】:数据的抽取、转换和装入是创建数据仓库系统的重要环节,它将组织机构内多元分散的数据按照主题统一装载到数据仓库中,能够很好地解决组织机构内部数据一致性与信息集成化问题。然而,ETL程序的频繁运行难免会产生大量的“脏数据”,直接导致数据仓库技术由于数据质量而不能产生理想正确的决策分析结果,因此数据在进入数据仓库之前需要进行清洗。数据清洗技术一直是近年来数据仓库领域中的研究热点,其主要任务是从原始数据集中去除不一致的和错误的数据。 首先描述了数据质量的基本概念、评价指标及分类等问题,在此基础上按照数据清洗算法将脏数据划分为“独立型脏数据”、“依赖型脏数据”两类,并给出了相应的解决方法。其次描述了清洗的基本定义及清洗环节,定义了ETL层的数据清洗模型和在元数据库中存储的清洗规则后,提出了一种自动清洗和人为清洗相混合的数据清洗策略。 针对中文地址类信息的数据清洗问题,提出了基于特征字符的分词方案,并给出了相应的分词算法。该方案将中文地址类信息按逻辑意义分为省、市、区、街及数字五组信息,通过与元数据库中省、市、区的标准信息匹配保证了分词的准确性。 针对中文地址类相似重复记录的处理问题,建立了包含分词规则的元数据库,提出了一种相似重复检测模型,并给出了利用可变权值策略计算中文地址类信息相似度的算法。实验结果表明该方案能有效解决中文地址类重复信息的检测,提高了算法的执行效率及检测精度。
【学位授予单位】:沈阳航空工业学院
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP309

【引证文献】
中国期刊全文数据库 前2条
1 杨家娥;聂道华;周枫;游进国;李勃;;一种面向社保领域的数据清洗整合系统架构[J];科学技术与工程;2010年29期
2 张静;王苏苏;;基于Oracle数据集成的KM二次开发与实现[J];兰州工业高等专科学校学报;2011年06期
中国硕士学位论文全文数据库 前6条
1 韩璐;针对推荐系统中信息共享需求下隐私保护机制的研究与实现[D];华东师范大学;2011年
2 阮文娟;商务智能ETL过程优化及质量控制在航空预警中的应用研究[D];武汉理工大学;2010年
3 杨进;多维模型中渐变维度的研究与应用[D];华中科技大学;2009年
4 郑雪松;基于域的中文数据清理系统分析与设计[D];北京林业大学;2008年
5 李素军;数据仓库数据集成处理中的异构数据接口的设计与实现[D];昆明理工大学;2008年
6 罗先贤;证券内幕交易稽查数据查询分析系统的设计与实现[D];华南理工大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 张宁,贾自艳,史忠植;数据仓库中ETL技术的研究[J];计算机工程与应用;2002年24期
2 许向阳,佘春红;近似重复记录的增量式识别算法[J];计算机工程与应用;2003年12期
3 方幼林 ,杨冬青 ,唐世渭 ,张卫华 ,余利波 ,付强;数据仓库中数据质量控制研究[J];计算机工程与应用;2003年13期
4 俞荣华;田增平;周傲英;;一种检测多语言文本相似重复记录的综合方法[J];计算机科学;2002年01期
5 鲍玉斌;孙焕良;冷芳玲;王大玲;于戈;;数据仓库环境下以用户为中心的数据清洗过程模型[J];计算机科学;2004年05期
6 邱越峰,田增平,季文贇,周傲英;一种高效的检测相似重复记录的方法[J];计算机学报;2001年01期
7 佘春红;数据清理方法[J];计算机应用;2002年12期
8 佘春红;基于优先队列的增量式重复记录识别[J];计算机应用;2003年09期
9 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期
10 孟小峰,周龙骧,王珊;数据库技术发展趋势[J];软件学报;2004年12期
中国硕士学位论文全文数据库 前2条
1 周宏广;异构数据源集成中清洗策略的研究及应用[D];中南大学;2004年
2 周奕辛;数据清洗算法的研究与应用[D];青岛大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 张小平,马垣;KDD中的数据清理技术研究[J];鞍山科技大学学报;2003年02期
2 刘玫瑾;;体育人才数据库的设计与应用[J];办公自动化;2008年22期
3 曹建军;刁兴春;杜鹢;王芳潇;张潇毅;;基于蚁群特征选择的相似重复记录分类检测[J];兵工学报;2010年09期
4 方丽英;王普;闫健卓;;面向语义异构的信息集成系统查询处理方案[J];北京工业大学学报;2007年08期
5 严爱军;柴天佑;高学金;王普;;燃烧过程空燃比的智能控制方法[J];北京工业大学学报;2008年03期
6 方丽英;闫健卓;王普;刘宇辉;;面向数据集成的基于规则的自动语义转换[J];北京工业大学学报;2008年03期
7 吕德亮;王晏民;张健钦;吴海燕;;面向宏观交通规划的移动对象模型及应用研究[J];北京建筑工程学院学报;2011年02期
8 刘玫瑾;;全国体育人才状况调研系统的研究[J];北京体育大学学报;2006年09期
9 陈伟,丁秋林;具有数据清理功能的交互式数据迁移及应用[J];吉林大学学报(信息科学版);2004年02期
10 孙铁民;于杰;尚程;田大新;张丽华;;基于无监督学习的数据清洗算法[J];吉林大学学报(信息科学版);2008年06期
中国重要会议论文全文数据库 前10条
1 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
2 张勇斌;孙彦广;;提高钢铁企业数据仓库中数据质量的方法与探讨[A];冶金轧制过程自动化技术交流会论文集[C];2005年
3 陈堃;李心科;;基于可扩展数据清理框架的元数据的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
4 毛雪岷;张兄利;;基于Ontology的面向对象数据库模型研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 于波;王宏鼎;唐世渭;童云海;;基于数据挖掘的数据质量分析研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
6 俞荣华;田增平;周傲英;;一种基于聚类的多语言文本相似记录检测算法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
7 郭景峰;周军锋;张大鹏;;一种改进的检测重复记录的方法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 周芝芬;乐嘉锦;;消除数据仓库中相似重复记录的方法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 汤娜;汤庸;道炜;;时态XML信息处理中间件的设计与实现[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 张小虎;邢春晓;贺炜;;基于XML的宏观经济数据的挖掘与分析[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
2 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
3 赵亮;面向位置服务的移动对象并发查询处理技术[D];国防科学技术大学;2010年
4 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
5 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
6 廖军;公路交通信息资源整合及系统实现研究[D];长安大学;2009年
7 李康荣;空间地理数据剖分网络协议研究[D];成都理工大学;2011年
8 侯东风;流式数据多维建模与查询关键技术研究[D];国防科学技术大学;2010年
9 王兵;黄土丘陵区流域生态恢复环境响应及其评价[D];中国科学院研究生院(教育部水土保持与生态环境研究中心);2011年
10 马立山;水信息技术在城市雨洪系统中的应用研究[D];天津大学;2011年
中国硕士学位论文全文数据库 前10条
1 程妍妍;基于嵌套Spreadsheet和数据流的多模态的Mashup应用构造[D];山东科技大学;2010年
2 杨建英;基于P2P和VNC的测井解释协同平台的研究与实现[D];山东科技大学;2010年
3 梁大圣;空间数据仓库的设计与构建[D];山东农业大学;2010年
4 葛迪;ETL技术在交通信息资源整合工程中的应用研究[D];哈尔滨工程大学;2010年
5 侯佳奇;社保联网审计中增量数据分布式处理的研究[D];哈尔滨工程大学;2010年
6 张蕾;天津港煤炭货运管理系统的设计与实现[D];大连海事大学;2010年
7 王静;基于关联规则的利润加权数据挖掘算法研究及在商业智能中的应用[D];中国海洋大学;2010年
8 王爽;GIS与空间数据挖掘技术在环境污染事故应急处理系统中的应用研究[D];中国海洋大学;2010年
9 崔山;网络会议平台数据分析系统的设计与实现[D];苏州大学;2010年
10 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 周志逵,徐先传;数据仓库中数据抽取、转换及加载工具研究[J];北京理工大学学报;2003年06期
2 齐文;;关于实时数据仓库架构的研究[J];辽东学院学报(自然科学版);2008年01期
3 陈伟;丁秋林;;可扩展数据清理软件平台的研究[J];电子科技大学学报;2006年01期
4 李星毅;包从剑;施化吉;;数据仓库中的相似重复记录检测方法[J];电子科技大学学报;2007年06期
5 尤欣;;ETL技术在商业智能中的应用[J];电脑应用技术;2008年03期
6 王敏;周从军;杜成龙;;数据仓库技术综述[J];电脑知识与技术;2008年15期
7 朱六璋;;调度信息系统的数据清洗应用[J];电力信息化;2007年04期
8 史金红,吴永明;数据仓库中元数据的管理[J];电子工程师;2000年02期
9 胡泽军,李华,吴中福;基于Web Services的数据采集[J];重庆大学学报(自然科学版);2004年05期
10 连仁包;曾光清;;数据集成中数据清洗模型的研究[J];福建电脑;2007年02期
中国博士学位论文全文数据库 前4条
1 者敬;开放式异构数据库复制框架的研究与实现[D];中国科学院研究生院(软件研究所);2002年
2 张旭峰;ETL若干关键技术研究[D];复旦大学;2006年
3 徐秀娟;商务智能中的利润挖掘研究[D];吉林大学;2008年
4 魏琼;数据发布中的隐私保护方法研究[D];华中科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 陈翔颖;中国证券市场内幕交易特征与识别研究[D];天津财经大学;2011年
2 喻小光;数据仓库的数据析取技术研究与实现[D];华侨大学;2002年
3 陆昌辉;基于关系数据模型的多维数据建模方法的研究[D];国防科学技术大学;2002年
4 李树华;数据仓库的星型解决方案及其实验研究[D];吉林大学;2004年
5 熊霞;数据仓库中数据质量控制问题研究[D];武汉大学;2004年
6 薛冬梅;化工企业异构数据库数据集成及数据仓库的创建[D];北京化工大学;2004年
7 缪嘉嘉;数据仓库的数据获取关键技术研究[D];国防科学技术大学;2003年
8 连仁包;通用ETL技术的研究与实现[D];福州大学;2005年
9 周奕辛;数据清洗算法的研究与应用[D];青岛大学;2005年
10 张军鹏;数据仓库与数据挖掘中数据清洗的研究[D];华北电力大学(河北);2006年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 常帅;序列模式挖掘在医疗保险上的应用[D];郑州大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 贾旭光,黄厚宽,黄婉秋;数据仓库中的数据集成[J];北方交通大学学报;2002年02期
2 宋宝燕,王国仁,于戈,郑怀远;模式集成代数[J];东北大学学报;1999年01期
3 陈传波,唐九飞;信息系统中的数据质量[J];湖北工学院学报;1998年03期
4 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
5 杨欣斌,孙京诰,黄道;基于Bayesian网络的缺损数据处理方法[J];华东理工大学学报;2002年S1期
6 丁治明,孟小峰,白芸,丁锐;基于关系数据库的位置相关查询处理[J];计算机研究与发展;2004年03期
7 廖璘,王立刚,刘文煌;构造数据仓库系统的元数据[J];计算机工程与应用;2001年16期
8 徐立臻,刘安,董逸生;数据仓库系统中的元数据管理[J];计算机工程与应用;2002年24期
9 张宁,贾自艳,史忠植;数据仓库中ETL技术的研究[J];计算机工程与应用;2002年24期
10 方幼林 ,杨冬青 ,唐世渭 ,张卫华 ,余利波 ,付强;数据仓库中数据质量控制研究[J];计算机工程与应用;2003年13期
【相似文献】
中国期刊全文数据库 前10条
1 陈躬燕;陈伟贤;;ETL在金融信贷风险数据仓库中的应用[J];中国科技信息;2009年10期
2 汪恒杰;胡大斌;嵇晓;;一个面向大规模数据仓库数据清洗策略的研究和实现[J];工程地质计算机应用;2004年03期
3 苏兴华;;基于数据仓库的钻井工程数据集成技术研究[J];石油工业计算机应用;2009年01期
4 崔英敏;;基于数据质量监管的ETL设计[J];微计算机信息;2009年21期
5 王克龙,王玲,王平立,宋斌;数据仓库中ETL技术的探讨与实践[J];计算机应用与软件;2005年11期
6 卢新生;金波;;广东地税基于ETL元数据管理征管系统的研究与实现[J];顺德职业技术学院学报;2009年01期
7 张永;迟忠先;闫德勤;;数据仓库ETL中相似重复记录的检测方法及应用[J];计算机应用;2006年04期
8 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
9 刘哲;;数据清洗技术在网络教学评价体系中的应用[J];网络与信息;2011年08期
10 刘华;胡燕;王涛;;Web数据清洗研究[J];软件导刊;2007年03期
中国重要会议论文全文数据库 前10条
1 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
2 颜立新;;矿山数据仓库建设中的数据采集设计[A];采矿工程学新论——北京开采所研究生论文集[C];2005年
3 俞荣华;郭志懋;田增平;周傲英;;一个可扩展的数据清洗系统[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 周芝芬;乐嘉锦;;消除数据仓库中相似重复记录的方法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 张晓明;林小竹;;分布式应用系统中的ETL开发方法学研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 毛明志;黄春贤;;一种新的数据仓库ETL框架及其应用[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 张卫华;方幼林;杨冬青;唐世渭;余立波;付强;;数据仓库ETL过程支撑框架研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 张坜;孙国强;;集装箱运输系统ETL的设计与实现[A];第七届全国信息获取与处理学术会议论文集[C];2009年
10 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
中国重要报纸全文数据库 前10条
1 郝晓庆 胡丹丹;直邮的世界精彩无限[N];中国邮政报;2011年
2 中国人民财产保险股份有限公司信息技术部副总经理 鹿慧 编译;在SOA中创建独立的数据清洗服务[N];计算机世界;2009年
3 尚金峰;内部评级模型风险不容忽视[N];中国证券报;2005年
4 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
5 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
6 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
7 ;美国的认证制度[N];国际商报;2002年
8 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
9 本报记者 周蓉蓉 四木;事半功倍的BI利器[N];计算机世界;2001年
10 姜蓉;外包:坦途还是末路?[N];中国经营报;2008年
中国博士学位论文全文数据库 前10条
1 宋杰;面向多类型数据源的数据仓库构建及ETL关键技术的研究[D];东北大学;2008年
2 许威;支持数据仓库国际化的ETL技术中若干关键问题研究和实践[D];厦门大学;2007年
3 马玉涛;在线客户评论的产品族设计与加工方法研究[D];华中科技大学;2012年
4 张旭峰;ETL若干关键技术研究[D];复旦大学;2006年
5 常建龙;数据流聚类及电信数据流管理[D];复旦大学;2008年
6 孙剑;海洋环境数据仓库与数据挖掘应用研究[D];中国海洋大学;2011年
7 李泽海;数据仓库中多维数据处理与查询相关技术的研究[D];吉林大学;2005年
8 陈学君;甘肃省气象科学数据共享平台及其应用研究[D];兰州大学;2009年
9 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
10 郑向群;农产品产地污染综合知识挖掘系统的研究[D];天津大学;2009年
中国硕士学位论文全文数据库 前10条
1 刘哲;ETL过程中的数据清洗技术研究与应用[D];沈阳航空工业学院;2007年
2 廉博;数据仓库中ETL技术的研究与实现[D];沈阳工业大学;2006年
3 周文渊;电信行业经营分析系统的设计[D];中南大学;2009年
4 崔亮;基于DBSCAN算法的相似重复记录检测方法研究[D];哈尔滨工程大学;2007年
5 周宏广;异构数据源集成中清洗策略的研究及应用[D];中南大学;2004年
6 刘华;Web信息集成中数据清洗的研究[D];武汉理工大学;2007年
7 李明;数据清洗技术在文本挖掘中的应用[D];南京理工大学;2008年
8 谭亚竹;基于XML数据清洗的应用研究[D];重庆大学;2006年
9 张好军;Web数据集成中数据清洗的关键问题研究[D];山东大学;2009年
10 韩鹏;ETL工具的设计实现与应用[D];吉林大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026