收藏本站
《青岛大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

数据清洗算法的研究与应用

周奕辛  
【摘要】:随着信息技术的飞速发展,组织的管理人员进行决策分析时对数据的依赖性越来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境—数据仓库。但是在构建数据仓库的过程中,从异构的数据源中导入的数据中存在各种质量问题,使得应用于数据仓库前端的决策支持系统产生错误的分析结果,影响信息服务的质量。所以必须对其进行数据清洗来提高其质量。数据清洗正在成为数据仓库和数据挖掘领域,乃至网络数据处理的一个重要课题。 本文首先对数据清洗的知识进行了全面和详细的描述,介绍了数据清洗的概念、意义和国内外研究与应用的现状。对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析和总结。其中重点对属性清洗及重复记录清洗所用到的技术和各种算法进行了深入的研究,并提出了相应的改进算法。 在属性清洗中,简单介绍了属性清洗的基本知识和方法,重点研究了如何应用统计分析和人工智能的技术自动检测数据集中属性值的错误,并给出了在数据集上的实验结果及结论。 在重复记录清洗中,首先介绍了重复记录清洗的相关知识和基本流程,然后分别就流程中各个步骤所涉及的关键算法进行了深入的研究,并针对各步中算法的缺陷进行了改进。主要包括:① 预处理步骤中,改进的排序关键字对数据集排序的方法;② 重复记录检测步骤中,针对中文字段值的特点提出的基于编辑距离的字段匹配算法和缩写发现算法;提出了利用有效权值和长度过滤的优化算法进行记录匹配,减少重复记录的检测时间,提高算法的效率;③ 在数据库级上对重复记录进行聚类的步骤中,针对传统的SNM方法的两个缺陷提出了改进的SNM算法,实验结果表明,改进的SNM算法要优于传统的算法。 最后,为解决构建青岛市港务局数据仓库的过程中遇到的数据质量和数据清洗问题,结合前面进行的研究工作设计了一个实验性的数据清洗工具。设计该工具的目的是对这些数据进行数据清洗,同时对本文中提出的改进的算法的有效性进行检验和验证。结果表明改进的算法有较好的效果,基本上能达到实际应用的要求。 在本文的结尾,对所做的工作进行了总结,并对未来数据清洗技术的研究方向进行了展望。
【学位授予单位】:青岛大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP311.11

【引证文献】
中国期刊全文数据库 前10条
1 彭璐;;基于数据仓库的ETL过程优化[J];计算机与数字工程;2010年05期
2 彭璐;;基于数据仓库的相似重复记录的识别与检测[J];计算机与数字工程;2011年03期
3 高阳;;基于多属性联合分析的数据清洗技术及其应用[J];科学技术与工程;2011年16期
4 张枢;;基于数据仓库的数据清洗算法研究[J];煤炭技术;2010年07期
5 周健昌;刘波;;一种条件函数依赖挖掘算法的分析与实现[J];计算机与数字工程;2012年09期
6 陈静杰;邹迎欢;;油耗预测中显著影响参数提取方法的仿真[J];计算机仿真;2013年06期
7 于和琴;;专利情报数据挖掘——企业获取竞争优势的法宝[J];商场现代化;2008年13期
8 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[J];中国索引;2012年01期
9 张武;刘波;;一种基于规则的交互式数据清洗框架的设计[J];微计算机应用;2009年10期
10 王曰芬;章成志;张蓓蓓;吴婷婷;;数据清洗研究综述[J];现代图书情报技术;2007年12期
中国重要会议论文全文数据库 前1条
1 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
中国博士学位论文全文数据库 前1条
1 陈卫东;数据质量模型及关系代数运算下质量传递理论与方法研究[D];国防科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 张兴华;数据清洗方法在电力企业数据中心的应用研究[D];兰州理工大学;2011年
2 刘伟;基于元数据的数据质量控制与评估模型研究[D];东北石油大学;2011年
3 高旻;多源数据清洗策略研究及在财政部门预算中的应用[D];解放军信息工程大学;2009年
4 杨家娥;基于特征优选的数据清洗方法研究[D];昆明理工大学;2011年
5 刘哲;ETL过程中的数据清洗技术研究与应用[D];沈阳航空工业学院;2007年
6 李俊娴;基于预处理技术的数据清理系统研究与实现[D];南京航空航天大学;2007年
7 肖静;面向水路交通信息平台的数据处理技术与应用研究[D];南京理工大学;2007年
8 张燕;基于聚类算法的数据清洗的研究与实现[D];华北电力大学(河北);2008年
9 郑雪松;基于域的中文数据清理系统分析与设计[D];北京林业大学;2008年
10 邱英;基于XML的Web数据存储与数据清洗技术研究与实现[D];武汉理工大学;2008年
【参考文献】
中国期刊全文数据库 前3条
1 张宁,贾自艳,史忠植;数据仓库中ETL技术的研究[J];计算机工程与应用;2002年24期
2 邱越峰,田增平,季文贇,周傲英;一种高效的检测相似重复记录的方法[J];计算机学报;2001年01期
3 佘春红;数据清理方法[J];计算机应用;2002年12期
【共引文献】
中国期刊全文数据库 前10条
1 张小平,马垣;KDD中的数据清理技术研究[J];鞍山科技大学学报;2003年02期
2 曹建军;刁兴春;杜鹢;王芳潇;张潇毅;;基于蚁群特征选择的相似重复记录分类检测[J];兵工学报;2010年09期
3 吕德亮;王晏民;张健钦;吴海燕;;面向宏观交通规划的移动对象模型及应用研究[J];北京建筑工程学院学报;2011年02期
4 陈伟,丁秋林;具有数据清理功能的交互式数据迁移及应用[J];吉林大学学报(信息科学版);2004年02期
5 孙铁民;于杰;尚程;田大新;张丽华;;基于无监督学习的数据清洗算法[J];吉林大学学报(信息科学版);2008年06期
6 周江川;彭川;;应急系统中不确定性异构数据的交换与集成[J];重庆理工大学学报(自然科学版);2010年08期
7 李鑫;李军;丰继林;高方平;李忠;;面向相似重复记录检测的特征优选方法[J];传感器与微系统;2011年02期
8 吴纲;;一种轻量级ETL的设计与应用[J];长江大学学报(自然科学版)理工卷;2008年04期
9 邓新莉;张四平;刘珊;周江川;;基于中间件平台的异构数据交换与集成[J];四川兵工学报;2011年03期
10 王志军,乐嘉锦;一种中文相似重复记录的检测方法[J];东华大学学报(自然科学版);2005年02期
中国重要会议论文全文数据库 前9条
1 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
2 陈堃;李心科;;基于可扩展数据清理框架的元数据的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 于波;王宏鼎;唐世渭;童云海;;基于数据挖掘的数据质量分析研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
4 俞荣华;田增平;周傲英;;一种基于聚类的多语言文本相似记录检测算法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
5 郭景峰;周军锋;张大鹏;;一种改进的检测重复记录的方法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
6 周芝芬;乐嘉锦;;消除数据仓库中相似重复记录的方法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 武纬;童云海;唐世渭;;ETL在保险现金流预测分析中的应用与研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
8 吕琳;朱东华;刘玉琴;;面向数据仓库的数据预处理研究综述[A];2007年中国智能自动化会议论文集[C];2007年
9 张晓东;王宏志;高宏;李建中;;一个针对电子商务数据的在线实体分类系统[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国博士学位论文全文数据库 前10条
1 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
2 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
3 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
4 廖军;公路交通信息资源整合及系统实现研究[D];长安大学;2009年
5 张小刚;关联规则挖掘及其在复杂工业过程控制中的应用研究[D];湖南大学;2002年
6 陈珉;分布式空间数据库主动数据更新研究[D];武汉大学;2004年
7 陈细谦;空间数据仓库关键技术的研究与实现[D];大连理工大学;2005年
8 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
9 方洪全;国有商业银行信用风险评估方法及应用研究[D];电子科技大学;2004年
10 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 梁大圣;空间数据仓库的设计与构建[D];山东农业大学;2010年
2 葛迪;ETL技术在交通信息资源整合工程中的应用研究[D];哈尔滨工程大学;2010年
3 侯佳奇;社保联网审计中增量数据分布式处理的研究[D];哈尔滨工程大学;2010年
4 张蕾;天津港煤炭货运管理系统的设计与实现[D];大连海事大学;2010年
5 王静;基于关联规则的利润加权数据挖掘算法研究及在商业智能中的应用[D];中国海洋大学;2010年
6 王爽;GIS与空间数据挖掘技术在环境污染事故应急处理系统中的应用研究[D];中国海洋大学;2010年
7 崔山;网络会议平台数据分析系统的设计与实现[D];苏州大学;2010年
8 王英翔;天津港数据集成处理平台的设计与实现[D];大连海事大学;2010年
9 李阳;基于数据仓库技术的电信CRM系统的研究与实现[D];哈尔滨理工大学;2010年
10 牛亦;基于数据挖掘技术的航班延误DSS研究[D];电子科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 俞能福;陈邦考;;主成分分析法在学生成绩分析中的应用[J];安徽建筑工业学院学报(自然科学版);2007年01期
2 贾陈忠,秦巧燕,张竹清,黄丽华;模糊数学在地表水环境质量评价中的应用[J];北方环境;2004年06期
3 薛明;肖学年;;关于地理编码几个问题的思考[J];北京测绘;2007年02期
4 陈伟,丁秋林;一种XML相似重复数据的清理方法研究[J];北京航空航天大学学报;2004年09期
5 陈继松;船舶跟踪和管理系统[J];船舶工程;1994年05期
6 陈伟,丁秋林;具有数据清理功能的交互式数据迁移及应用[J];吉林大学学报(信息科学版);2004年02期
7 孙铁民;于杰;尚程;田大新;张丽华;;基于无监督学习的数据清洗算法[J];吉林大学学报(信息科学版);2008年06期
8 张平;党选举;陈皓;杨文雷;;基于熵特征优选分组聚类的相似重复记录检测[J];传感器与微系统;2011年11期
9 王喜;杨华;范况生;;城市网格化管理系统的关键技术及示范应用研究[J];测绘科学;2006年04期
10 文学东;钟文军;祝方雄;卢秀山;;基于Geodatabase的CAD到ARCGIS数据入库研究[J];测绘科学;2006年06期
中国博士学位论文全文数据库 前10条
1 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
2 孙英娟;基于粗糙集的分类方法研究[D];吉林大学;2011年
3 李玉榕;信息融合与智能处理的研究[D];浙江大学;2001年
4 易正俊;多源信息智能融合算法[D];重庆大学;2002年
5 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
6 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
7 曾衍伟;空间数据质量控制与评价技术体系研究[D];武汉大学;2004年
8 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
9 冯玉;数据仓库环境中近似查询处理技术研究[D];中国科学院研究生院(计算技术研究所);2002年
10 梁吉业;基于粗糙集与概念格的智能数据分析方法研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前10条
1 赵飞国;面向数据挖掘的数据预处理系统设计与实现[D];北京交通大学;2011年
2 任萱萱;基于Hadoop平台的作业调度研究[D];天津师范大学;2011年
3 刘婧;基于飞行数据分析的飞机燃油估计模型[D];南京航空航天大学;2010年
4 杨宸铸;基于HADOOP的数据挖掘研究[D];重庆大学;2010年
5 高旻;多源数据清洗策略研究及在财政部门预算中的应用[D];解放军信息工程大学;2009年
6 张浩;数据融合在工程中的应用与研究[D];湖南大学;2001年
7 李荣花;基于粗集理论的神经网络研究与应用[D];大庆石油学院;2003年
8 唐懿芳;基于聚类模式的数据清洗技术[D];广西师范大学;2003年
9 冯志兰;缺失数据的估计与应用[D];山西医科大学;2003年
10 周芝芬;基于数据仓库的数据清洗方法研究[D];东华大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 李兰友;胡诚皓;张春华;;ETL集群优化技术研究与实现[J];电脑知识与技术;2012年13期
2 欧阳静;;关于数据仓库分库策略和应用场景的探讨[J];电脑知识与技术;2012年27期
3 刘晓峰;梁耿;梁宏谦;罗鹏;;基于并行缓冲区机制的源系统接口优化[J];广西通信技术;2012年03期
4 孙健;周云龙;;基于数据挖掘的住房状况与用户相关因素分析[J];电子世界;2013年07期
5 冯晓青;;论企业技术创新中的知识产权管理策略——以专利信息管理为考察视角[J];东疆学刊;2013年03期
6 蒋勋;刘喜文;;大数据环境下面向知识服务的数据清洗研究[J];图书与情报;2013年05期
7 刘喜文;郑昌兴;王文龙;汤刚强;;构建数据仓库过程中的数据清洗研究[J];图书与情报;2013年05期
8 叶鸥;张璟;李军怀;;中文数据清洗研究综述[J];计算机工程与应用;2012年14期
9 曹建军;刁兴春;汪挺;王芳潇;;领域无关数据清洗研究综述[J];计算机科学;2010年05期
10 孙水华;林志强;;企业决策支持系统ETL建构技术研究[J];福建工程学院学报;2011年01期
中国重要会议论文全文数据库 前1条
1 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
中国博士学位论文全文数据库 前1条
1 何慧敏;广西监测点居民慢性病死因监测及多尺度时空趋势研究[D];广西医科大学;2014年
中国硕士学位论文全文数据库 前10条
1 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
2 陈凤萍;寿光人才求职招聘网站中资源检索算法的研究[D];中国海洋大学;2010年
3 韩璐;针对推荐系统中信息共享需求下隐私保护机制的研究与实现[D];华东师范大学;2011年
4 乔哲峰;自适应情景感知中间件的情景数据预处理模型研究与实现[D];华东师范大学;2011年
5 阮文娟;商务智能ETL过程优化及质量控制在航空预警中的应用研究[D];武汉理工大学;2010年
6 蒋楠;基于CWM的ETL在数据中心中的应用研究[D];东华大学;2011年
7 郭凯;面向Web文本的数据清洗关键技术的研究与实现[D];西安电子科技大学;2009年
8 崔文;基于柔性统计系统的港口企业多维度统计模式构建[D];北京交通大学;2011年
9 张兴华;数据清洗方法在电力企业数据中心的应用研究[D];兰州理工大学;2011年
10 王卫;水路危险货物运输事故应急处置及应急管理信息系统研究[D];南京理工大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 王咏梅,陈家琪,耿玉良;一种可交互的数据清洗系统[J];计算机工程与设计;2005年04期
2 张武;刘波;;一种基于规则的交互式数据清洗框架的设计[J];微计算机应用;2009年10期
3 曹建军;刁兴春;陈爽;邵衍振;;数据清洗及其一般性系统框架[J];计算机科学;2012年S3期
4 田伟;殷淑娥;;浅析数据清洗[J];计算机光盘软件与应用;2013年11期
5 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
6 邓中国,周奕辛;数据清洗技术研究[J];山东科技大学学报(自然科学版);2004年02期
7 唐懿芳,钟达夫,张师超;数据清洗前的预处理方法[J];广西科学;2005年02期
8 孟坚,董逸生,王永利;一种基于规则的交互式数据清洗技术[J];微机发展;2005年04期
9 包从剑;李星毅;施化吉;;可扩展和可交互的数据清洗系统[J];计算机技术与发展;2007年07期
10 王曰芬;章成志;张蓓蓓;吴婷婷;;数据清洗研究综述[J];现代图书情报技术;2007年12期
中国重要会议论文全文数据库 前10条
1 俞荣华;郭志懋;田增平;周傲英;;一个可扩展的数据清洗系统[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 崔运钏;刘连忠;;一种可扩展的数据清洗系统的设计与实现[A];2006中国控制与决策学术年会论文集[C];2006年
3 汪爱民;;宝钢全流程合同数据清洗与组织方案的设计和应用[A];全国冶金自动化信息网2014年会论文集[C];2014年
4 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
5 李智;宋杰;冷芳玲;王大玲;鲍玉斌;于戈;;一种基于构件扩展的数据清洗框架[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 高淑娟;鲍玉斌;江志纲;王大玲;于戈;;一种基于最小风险贝叶斯决策的数据清洗策略[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 王妍;石鑫;宋宝燕;;基于伪事件的RFID数据清洗方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 李晓静;谷峪;吕雁飞;王艳秋;于戈;;基于动态事件概率模型的高效RFID数据清洗算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 肖英治;陈红;;带数据清洗功能的数据预处理系统PW-ETL的设计与实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 赵之慧;;专利数据加工[A];2014年中华全国专利代理人协会年会第五届知识产权论坛论文(第二部分)[C];2014年
中国重要报纸全文数据库 前1条
1 中国人民财产保险股份有限公司信息技术部副总经理 鹿慧 编译;在SOA中创建独立的数据清洗服务[N];计算机世界;2009年
中国博士学位论文全文数据库 前1条
1 樊华;面向物联网的RFID不确定数据清洗与存储技术研究[D];国防科学技术大学;2013年
中国硕士学位论文全文数据库 前10条
1 张联超;基于本体的数据清洗系统框架研究[D];南京航空航天大学;2008年
2 朱前磊;电子政务系统中海量数据清洗方法研究与应用[D];东华大学;2010年
3 吴俊;基于神经网络的电力负荷数据清洗模型研究[D];大连理工大学;2010年
4 梁文斌;数据清洗技术的研究及其应用[D];苏州大学;2005年
5 唐懿芳;基于聚类模式的数据清洗技术[D];广西师范大学;2003年
6 伍江磊;数据清洗在贵州地税省级数据集中项目中的研究与应用[D];湖北大学;2012年
7 李亚坤;基于网络的数据清洗技术研究[D];哈尔滨工业大学;2013年
8 王武;数据清洗方法研究及工具设计[D];上海交通大学;2009年
9 包从剑;数据清洗的若干关键技术研究[D];江苏大学;2007年
10 张燕;基于聚类算法的数据清洗的研究与实现[D];华北电力大学(河北);2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026