收藏本站
《暨南大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

数据中心基于规则的数据质量检测方法的研究与实验分析

杨高  
【摘要】:随着如今企业的规模扩大,伴随而来的是数据量的巨大膨胀,这是业务发展的结果。但是,数据量的增大不可避免地带来了数据质量的问题,而数据质量关乎到整个企业的管理质量和业务运行。在当前数据中心建设的过程中,由于该进程处于高速发展阶段,因此存在不同的特点和需求,也就造成了对数据质量研究的缺乏,而根据数据调查显示,大部分企业的信息化系统存在不同程度的数据重复和数据不完整的现象。因此,越来越多的企业和机构在建设信息化系统的同时,亦对内部的数据质量投入了较大的精力进行把控。数据质量主要在以下六个方面进行判断:准确性、完整性、一致性、及时性、可理解性和可获取性。为了能够实现对数据质量提高的目的,本论文将从对数据自动采集、质量检测以及数据修复三方面进行考虑,研究一种基于规则的数据质量管理算法,建设数据质量检测模型,该模型包含的有数据对象、数据质量信息采集、数据质量规则、质量检测、质量评估及报告和问题分析及处理等五个模块,并开发了数据质量检测系统,可用于规则库创立、数据质量检测以及数据修复等功能,具有较强的实用性。本文采用的一种基于规则表达树的树型方式来对描述所运用的数据检测规则,由于采用了xml的方式,因此可以快速地将表达树直接映射到xml文件中,且能容易地发现大型数据库中的函数依赖关系。在数据质量检测方面,首先需对表达式的逆规则进行检索,针对关系型数据库,需将逆规则表达式用SQL语句重新表达并执行,已达到发现异常数据的目的;针对xml类型的数据,则用XQuery语句进行转换并执行,对异常数据进行检测;在数据修复方面,本文主要对空缺值进行了修复,即运用表达式求出异常元素的值,并填充至数据对象中。最后,在本文设计的数据质量检测系统中,对系统进行了压力测试,并分别从数据完整性、有效性和唯一性对数据处理前后进行了对比。
【学位授予单位】:暨南大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;TP308

【相似文献】
中国期刊全文数据库 前10条
1 齐艳珂;李晓举;周青;;数据质量的研究[J];中小企业科技;2007年08期
2 鞠彦辉;;企业数据质量问题及其对策[J];中国管理信息化(综合版);2007年09期
3 晨阳;;数据的生命之源是质量——Business Objects公司发布其亚太地区数据质量调研报告[J];每周电脑报;2006年48期
4 刘贤荣;;构建数据质量治理体系的思考[J];金融电子化;2014年04期
5 亓文会;李传春;;企业信息化中数据质量监督控制研究[J];中国管理信息化(综合版);2007年07期
6 苏小会;葛宇洲;;数据质量提高方案探究[J];电子测试;2014年08期
7 毕思文,景东升;数字人体数据质量标准[J];中国医学影像技术;2004年05期
8 卢绍年;;浅析企业信息化建设与数据质量[J];广西电业;2013年03期
9 丁华;;计算机辅助调查与数据质量[J];统计与决策;2014年03期
10 李庆莉;关注数据质量[J];中国金融电脑;2003年11期
中国重要会议论文全文数据库 前10条
1 郑华;;基于数据世系的数据质量评估框架[A];广西计算机学会2010年学术年会论文集[C];2010年
2 陈翼;;数据质量理论与高校信息化应用建设探索[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年
3 卢来发;王树理;;影响数据质量的因素分析及对策[A];山西省第七次统计科学讨论会论文集[C];2003年
4 王华;;利用抽样调查评估普查数据质量的理论初探[A];北京市第十三次统计科学讨论会论文选编[C];2006年
5 刘慧;蔡青;刘敏;;基于Vague集的数据质量综合评估方法[A];第十二届中国管理科学学术年会论文集[C];2010年
6 侯培庄;;确保CUJA质量的几点建议[A];外向型文献库的数据质量控制——首届CUJA系统学术讨论会论文集[C];1990年
7 顾彬;王彦敏;卢刚;;大比例尺DLG数据质量检查方法研究[A];江苏省测绘学会2009年学术年会论文集[C];2009年
8 钱闯;刘晖;张红娟;;Trimble BD970 OEM板数据获取与质量分析[A];第三届中国卫星导航学术年会电子文集——S08卫星导航模型与方法[C];2012年
9 李斌;;对CUJA数据质量及系统软件的几点建议[A];外向型文献库的数据质量控制——首届CUJA系统学术讨论会论文集[C];1990年
10 汪锡锟;;大型普查的组织工作研究[A];北京市第十三次统计科学讨论会论文选编[C];2006年
中国重要报纸全文数据库 前10条
1 白春华;丰宁国税不断提高征管数据质量[N];承德日报;2008年
2 ;采取多种举措确保数据质量[N];郑州日报;2009年
3 李艳;华宁确保经普数据质量[N];玉溪日报;2009年
4 乔希萍;提高数据质量 提升统计能力为科学发展提供有力的统计 保障[N];济南日报;2009年
5 ;数据质量市场仍有很大挖潜空间[N];网络世界;2009年
6 孙洪辉 涂辉荣 肖小群;诏安重视数据质量建设[N];中国工商报;2010年
7 李明湘 段钟张;荆州数据质量建设步入“四化”轨道[N];中国工商报;2010年
8 通讯员 周明君 洪炜勋;宁陕统计局“五字”原则保数据质量[N];安康日报;2011年
9 郑卫青;让数据不再掣肘公司经营[N];中国保险报;2011年
10 杨克;内江推进办案数据质量建设[N];中国工商报;2011年
中国博士学位论文全文数据库 前1条
1 王大魁;基于数据质量与势熵的聚类算法研究[D];武汉大学;2016年
中国硕士学位论文全文数据库 前10条
1 杨高;数据中心基于规则的数据质量检测方法的研究与实验分析[D];暨南大学;2017年
2 王永凯;我国GDP数据质量实证研究[D];首都经济贸易大学;2015年
3 王彬;制药企业流向数据质量量化管理模式构建[D];对外经济贸易大学;2015年
4 于天娇;基于元数据的银行数据质量管理技术研究[D];浙江大学;2015年
5 凌云;数据质量评估方法研究[D];四川师范大学;2015年
6 方剑委;基于滤波对角化方法提高傅立叶变换质谱数据质量[D];国防科学技术大学;2013年
7 张磊;自动气象站数据质量控制软件设计与实现[D];电子科技大学;2014年
8 齐艺兰;ERP系统的数据质量评价研究[D];西安电子科技大学;2014年
9 高晓松;基于EPDM的录井数据管理平台的研究与开发[D];东北石油大学;2015年
10 段宗然;利用Benford法则研究农林牧渔产值数据质量的可靠性[D];燕山大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026