收藏本站
《南京航空航天大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

数据清理关键技术及其软件平台的研究与应用

陈伟  
【摘要】:我国目前正在大力推广信息技术,实施各行各业的信息化工程,如代表制造业信息化潮流的 ERP(Enterprise Resource Planning,企业资源计划)系统,电子政务系统,医疗保险信息系统,以及其它各类形式的信息系统。随着信息化的进展,企业积累了大量的电子数据,这些数据非常珍贵。用户录入错误、企业合并以及企业环境随着时间的推移而改变等因素,都会影响数据的质量。为了更好地发挥信息化的作用,必须提高信息系统的数据质量。显见,研究信息化建设中的数据清理问题具有理论和应用价值。针对这一课题,论文包括如下几个方面的研究工作: 论述了数据清理研究的重要性和紧迫性,分析了数据清理的研究现状,指出了目前数据清理研究中所存在的问题。 从数据质量的三个重要因素出发,研究了单数据源中数据清理的关键技术,包括:相似重复记录清理、不完整数据清理、错误数据清理。 对于相似重复记录的清理,给出了一种综合的清理方法。为了提高该方法的检测精度和检测效率,从两个方面对该方法的关键环节进行了改进:第一个改进是在相似重复记录检测中,根据具体的业务系统,采用等级法为记录各字段指定合适的权重,从而提高了相似重复记录的检测精度;第二个改进是提出了一种提高相似重复记录检测效率的方法,该方法采用长度过滤方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了相似重复记录的检测效率。此外,构造了合适的实验环境,做了大量的检测实验,翔实的实验结果验证了长度过滤方法的科学性及有效性。 对于不完整数据的清理,提出了一种清理方案,该方案首先分析数据的可用性;然后删除不可用记录;最后,对可用记录通过选用合适的方法来处理该记录的丢失值,从而完成数据源中不完整数据的清理。 针对数据源中出现的错误数据,研究了如何采用孤立点检测和业务规则这两种方法来检测这些错误数据,多种检测方法大大提高了错误数据清理的综合效果。 在研究了单数据源数据清理的基础上,又研究了多数据源集成中的数据清理问题,主要内容有:研究了多数据源集成中数据标准化的方法;结合相似重复记录清理的研究,给出了一种相似重复实体检测方法,有效地解决了多数据源集成中相似重复实体的清理问题;提出了一种交互式数据迁移方法,该方法把数据迁移和数据清理紧密地结合在一起,不仅可灵活、准确地完成多数据源集成中的数据迁移,还可保证数据迁移后新系统的数据质量。 在结构化数据清理研究的基础上,针对半结构化数据 XML 在数据清理中的重要性,提出了一种有效的 XML 相似重复数据清理方法,并给出了一种优化的基于树编辑
【学位授予单位】:南京航空航天大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP311.52

【相似文献】
中国期刊全文数据库 前10条
1 张春森;管网信息系统数据质量控制方法[J];测绘通报;1998年10期
2 赵锦;王群英;;加强数据监管,提高基础数据质量[J];医疗装备;2006年04期
3 苏强,梁冰;信息质量及其评价指标[J];计算机系统应用;2000年07期
4 陈传波,唐九飞;信息系统中的数据质量[J];湖北工学院学报;1998年03期
5 亓文会;李传春;;企业信息化中数据质量监督控制研究[J];中国管理信息化(综合版);2007年07期
6 张春森;管网信息系统空间数据质量的控制[J];遥感信息;1998年03期
7 周东;;数据质量:应用系统的成功保障[J];中国信息界;2006年12期
8 孙晨曦;;金税三期将是管理变革[J];每周电脑报;2008年12期
9 Yang W.Lee;Elizabeth Pierce;John Talburt;Richard Y.Wang;朱宏伟;;信息质量专业硕士研究生课程设置[J];中国科技资源导刊;2008年06期
10 李兴森;石勇;鹿盟;申爱华;;低质量数据下的知识获取方案研究[J];当代经济管理;2007年03期
中国重要会议论文全文数据库 前10条
1 张勇斌;孙彦广;;提高钢铁企业数据仓库中数据质量的方法与探讨[A];冶金轧制过程自动化技术交流会论文集[C];2005年
2 于增贵;;抓住机遇 发展信息安全产业[A];四川省通信学会2001年学术年会论文集[C];2001年
3 杨海龙;;铝工业汽车运输管理系统设计及其实现[A];中国计量协会冶金分会2009年年会论文集[C];2009年
4 刘文娟;;录音在安全生产中的应用[A];中国水力发电工程学会信息化专委会2010年学术交流会论文集[C];2010年
5 鲍有文;黄建华;王辉;;第21届世界大学生运动会信息系统的软件工程实施[A];全国计算机网络应用年会论文集(2001)[C];2001年
6 符军;;航测信息系统推广应用及发展的分析和设想[A];中国航海学会航标专业委员会沿海、内河航标学组联合年会学术交流论文集[C];2003年
7 王景光;袁胜;;基于Web service的信息系统解决方案[A];全国第七届工业工程与企业信息化学术会议论文集[C];2003年
8 王冶;辜健;耿俊豹;;装备综合保障信息系统中主题数据库建设的探讨[A];中国造船工程学会修船技术学术委员会船舶维修理论与应用论文集第七集(2004年度)[C];2004年
9 柏林;;MES在宝钢ERW的应用概况[A];第十一届北方钢管技术研讨会论文汇编[C];2007年
10 王大溪;罗衡郴;伍良启;蒙宇;;基于MySQL的医学影像信息系统的总体设计[A];广西计算机学会2007年年会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 刘书臻;切实提高统计调查数据质量[N];中国信息报;2009年
2 本报记者 王布刚;视数据质量为生命[N];中国信息报;2003年
3 贺崇生 通讯员 文礼发;荆州企调七条措施保数据质量[N];中国信息报;2005年
4 徐林 邓吉元;耕耘数字也风流[N];中国信息报;2008年
5 记者史家美罗娜;坚持依法调查 确保数据质量[N];中国信息报;2002年
6 包奇志 娜仁;内蒙古统计局为提高数据质量寻招[N];中国信息报;2004年
7 记者 杨永芹 实习生 周娟;强调把数据质量放在重要位置[N];重庆日报;2009年
8 本报记者 孙启文;牢记使命 奋进创新 努力提高国家统计调查能力数据质量和公信力[N];中国信息报;2010年
9 国家统计局河南调查总队总队长 刘世德;准确把握四个“度” 奋力推进“三个提高”[N];中国信息报;2010年
10 豫统;平顶山局五项举措提高数据质量[N];中国信息报;2006年
中国博士学位论文全文数据库 前10条
1 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
2 丁丽娅;信息系统的非线性动力学控制研究[D];天津大学;2010年
3 郭迅华;中国企业信息化成长阶段分析与技术采纳特点研究[D];清华大学;2005年
4 赵元凤;中国农产品市场信息系统研究[D];中国农业科学院;2003年
5 郑文钟;基于数据挖掘和系统集成的农业机械化信息管理系统研究[D];浙江大学;2005年
6 吉猛;商业银行信息系统内部控制研究[D];同济大学;2006年
7 刘昱岗;基于客户关系管理的企业分销系统优化设计及管理[D];西南交通大学;2007年
8 王永靖;汽车制造企业绿色制造模式及关键支持系统研究[D];重庆大学;2008年
9 陈勇;可持续升级的企业信息化战略研究[D];华中科技大学;2011年
10 曲良东;基于IPv6的车载信息系统若干问题研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 张丽萍;遂宁市农业局电子政务系统的设计与实现[D];电子科技大学;2010年
2 邓丽红;东软集团网上报销系统的设计研究[D];东北大学;2008年
3 郝建姝;内蒙古电力95598信息系统的整合与开发[D];天津大学;2010年
4 郑永恒;施工项目信息管理系统的设计与实现[D];电子科技大学;2009年
5 黄艳;医院信息管理系统外包管理研究[D];上海交通大学;2010年
6 周道金;基于ITIL的高职院校信息系统运维软件的设计与实现[D];电子科技大学;2010年
7 陆伟文;中石油西南公司价格信息系统的设计与实现[D];上海交通大学;2010年
8 沈军武;ABC集团信息系统数据质量管理研究[D];中南大学;2012年
9 夏吉安;一种混合结构的社区慢性病管理信息系统—设计与实现[D];南京理工大学;2010年
10 郑斌;社保卡信息系统的研究与设计[D];合肥工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026