收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于预处理技术的数据清理系统研究与实现

李俊娴  
【摘要】: 随着信息化工程的不断深入,许多企业在长期的运营过程中积累大量数据,这些数据能够反映企业生产经营过程中的规律。建立决策支持系统是利用已有数据的应用服务之一,但是基于劣质数据的决策是不可信的。纠正数据错误是避免错误决策、降低决策风险的重要一环,数据清理应运而生。 本文深入研究数据预处理技术和数据清理技术。数据预处理技术分别针对数值型字段和字符型字段研究了孤立点的检测和缩写的发现;数据清理技术研究相似重复记录的清理。孤立点的检测使用一种基于邻域局部修剪的算法,利用垂直的数据结构—P-树实现算法,保证算法的有效性和高效率,并对算法做出改进,提高算法的适用性。在缩写发现技术中,重点研究基于动态规划的缩写发现算法,该算法不仅能处理西文字符而且能有效地发现中文缩写形式,改进后的算法具有较高的效率和较好的健壮性。数据清理部分对于相似重复记录的清理,分别研究英文、中文记录排序算法,不同类型字段的相似度计算方法,记录相似度计算方法以及相似重复记录的合并规则,并对以上相似重复记录清理的每个步骤都做出改进,提高了数据清理过程的正确率和执行效率。 最后,本文给出了基于预处理技术的数据清理系统的初步实现,并将其应用到某项目中,验证结果表明:基于预处理技术的数据清理系统具有良好的运行效率和运行效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王珏;杨鹤标;;临床行为模式挖掘的数据预处理[J];计算机工程与设计;2009年02期
2 肖智,李勇,李昌隆;一种基于相关分析的数据预处理方法[J];重庆大学学报(自然科学版);2002年06期
3 邵明豪;;数据预处理技术的具体实现形式研究[J];网络安全技术与应用;2009年06期
4 陈伟,王昊,朱文明;基于孤立点检测的错误数据清理方法[J];计算机应用研究;2005年11期
5 梁斌梅;;基于层次聚类的孤立点检测方法[J];计算机工程与应用;2009年32期
6 刘莉,徐玉生,马志新;数据挖掘中数据预处理技术综述[J];甘肃科学学报;2003年01期
7 罗森林,成华,张铁梅,曾平,陈峰;多维2型糖尿病实测数据的预处理技术[J];计算机工程;2004年17期
8 夏骄雄;徐俊;吴耿锋;;数据清理中同体不同源数据的数化算法研究[J];计算机工程;2007年01期
9 马静;;浅谈档案信息的数据预处理[J];兰台世界;2008年07期
10 张沫;陈基漓;阮百尧;;Web日志挖掘中数据预处理技术的研究[J];计算机与数字工程;2007年09期
11 姚洪波;杨炳儒;;Web日志挖掘数据预处理过程技术研究[J];微计算机信息;2006年18期
12 陈霞;邱桃荣;魏玲玲;蔡洪;;基于数据挖掘的病历数据预处理[J];计算机与现代化;2007年05期
13 鲍静;范生万;;基于数据挖掘的图书数据预处理[J];大学图书情报学刊;2008年02期
14 关莉莉;;银行卡客户群体聚类挖掘研究[J];微计算机信息;2008年30期
15 李燕;冯博琴;鲁晓锋;;Web日志挖掘中的数据预处理技术[J];计算机工程;2009年22期
16 张慧颖;梁伟;;Web使用挖掘中的数据预处理算法研究[J];微型电脑应用;2007年08期
17 朱志国;;Web使用模式挖掘系统的框架设计[J];情报理论与实践;2010年04期
18 钱宏;;数据挖掘预处理技术的研究[J];电脑知识与技术;2010年17期
19 柳胜国;Web日志挖掘数据预处理方法研究[J];现代图书情报技术;2004年12期
20 张增敏;谢嘉;李长河;隋连升;;数据挖掘技术在变电站设备及缺陷管理系统中的应用[J];山东农业大学学报(自然科学版);2006年04期
中国重要会议论文全文数据库 前10条
1 王桂芹;黄道;;数据预处理技术研究[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
2 谭立云;凯丽比努尔;塔西甫拉提;高学东;热合木江;;数据挖掘中的数据预处理方法研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
3 傅琪琦;乐嘉锦;;CRM数据仓库中的数据预处理研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 闫永慧;;空间数据挖掘中数据预处理技术探讨[A];数字测绘与GIS技术应用研讨交流会论文集[C];2008年
5 胡钛;李英玉;孟新;王春梅;李秀冰;;双星计划地面应用数据预处理的设计与实现[A];中国空间科学学会空间探测专业委员会第十七次学术会议论文集[C];2004年
6 吕琳;朱东华;刘玉琴;;面向数据仓库的数据预处理研究综述[A];2007年中国智能自动化会议论文集[C];2007年
7 周炳玉;卢野;刘珍阳;;多传感器数据融合中的数据预处理技术研究[A];2007年光电探测与制导技术的发展与应用研讨会论文集[C];2007年
8 肖英治;刘中蔚;姚佳丽;陈红;王珊;;PW-ETL:一种利用知识库进行数据预处理的ETL构架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 张国卿;马亚龙;同兰娟;孙明;;一种数字信号处理方法在数据预处理中的应用研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
10 曾宏;王媛;;三维地质建模及其在隧洞工程中的应用[A];2007重大水利水电科技前沿院士论坛暨首届中国水利博士论坛论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘杰;面向数据集成的数据清理关键技术研究[D];中国科学技术大学;2010年
2 白爱民;基于客户集群和拓扑理论的CRM模型与算法研究[D];天津大学;2006年
3 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
4 李超锋;Web使用挖掘关键技术研究[D];华中科技大学;2007年
5 田江;基于支持向量机的孤立点检测方法研究[D];大连理工大学;2009年
6 李艳;制浆蒸煮过程纸浆卡伯值软测量技术研究与应用[D];华南理工大学;2003年
7 刘妍;高速公路建设期安全风险智能管理研究[D];大连理工大学;2011年
8 马昕;粗糙集理论在数据挖掘领域中的应用[D];浙江大学;2003年
9 余建桥;基于云理论与数据场的空间孤立点挖掘研究[D];西南农业大学;2005年
10 贾磊;机械制造过程中的知识管理的研究[D];上海大学;2005年
中国硕士学位论文全文数据库 前10条
1 李俊娴;基于预处理技术的数据清理系统研究与实现[D];南京航空航天大学;2007年
2 管进勇;数据挖掘在银行个人优质客户管理中的应用研究[D];南昌大学;2008年
3 张增敏;数据挖掘技术在变电站设备及缺陷管理系统中的应用[D];西安理工大学;2006年
4 王峰;数据挖掘在证券公司客户关系管理中的应用[D];哈尔滨工程大学;2008年
5 马燕燕;中国科技论文在线文献的数据预处理研究[D];吉林大学;2010年
6 朱凯;实时数据流的数据预处理与特征分析[D];武汉科技大学;2010年
7 刘春亚;基于粗集理论的数据预处理及应用研究[D];重庆大学;2003年
8 崔冬;平坦快速衰落信道预测方法的研究[D];吉林大学;2004年
9 胡剑琛;微机继电保护数据预处理的研究[D];华北电力大学(北京);2005年
10 程川生;Web挖掘技术及其应用[D];山东大学;2005年
中国重要报纸全文数据库 前10条
1 陈家运;认真开展台站数据清理登记[N];江苏法制报;2007年
2 杨景;进一步做细做实统计数据清理核查工作[N];天水日报;2007年
3 程颖;切实维护空中电波秩序[N];平顶山日报;2007年
4 记者 曹云;我市召开无线电台(站)数据清理登记工作会[N];长治日报;2007年
5 张虹;我国无线电台站数据清理登记全面启动[N];人民邮电;2007年
6 鞠同心;轻舟巧过万重山[N];国家电网报;2009年
7 吴德胜 李宏一;数据上收 湖北分行力争安全高效 广西分行启动差异分析[N];中国城乡金融报;2006年
8 见习记者 禹超 实习生 杨柳;为奥运会做好通信保障[N];秦皇岛日报;2006年
9 李硕;我市开展无线电频率台站数据清理登记工作[N];周口日报;2007年
10 记者 刘寒凝 实习生 霍丽莎;我市展开无线电台站数据清理登记工作[N];保定日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978