收藏本站
《华中科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义关联的重复数据清理技术研究

黄莉  
【摘要】:重复数据的出现会给数据质量带来极大的困扰,严重影响着数据处理和分析的效率,如何对重复数据进行清理是数据处理研究的重要问题。然而,随着数据的急剧增长,数据源的多样性,同名、多词一义等歧义实体的出现,关联数据的大量涌现给现有的重复数据清理方法带来了挑战。现有的重复数据清理方法存在着检测结果不全面,对歧义实体的检测精确度不高,检测时间花费长,计算复杂性高等问题。因此,重复数据的清理研究需从重复数据检测结果的全面、准确、高效等方面展开。这三个方面在一定程度上相互制约,一味追求高的查全率会影响查准率,一味追求高效也会对查全查准产生影响。如何使这三个方面达到一个平衡点,是重复数据检测研究的重点。 基于语义关联的重复数据清理,是通过数据之间的语义关系来检测数据之间的重复性、区分模糊信息、过滤掉不相干的数据,解决去重问题中大规模数据比较带来检测效率问题。 针对数据源的多样性、数据记录之间的差异对重复数据检测的查全的影响,提出一种基于长度过滤动态权值的数据比较方法。该方法首先针对重复数据检测的两两数据对的比较的计算量大的问题,在数据对比较前,根据数据对的长度差,过滤掉不可能是重复数据的数据对。减少参加数据比对的数据对的个数,以提高检测的效率。然后针对不同数据源之间数据记录的差异影响检测的查全问题,动态的为记录各属性赋权值,减少记录之间因属性缺省对相似度计算的影响,提高重复检测查全率。最后对现有的检测方法对查全的问题进行了改进,提出一种基于动态滑动窗口的数据比较策略。该策略以动态的滑动窗口来控制数据与其它数据比较,进一步提高重复数据的查全率。该方法平均查全率,查全率和查准率调合平均值,均高于现有的检测方法,在提高查全率的同时,没有降低检测的查准率。 针对重名、多词一义等歧义实体给重复数据检测带来的影响,提高重复数据清理的准确性的问题,提出一种基于语义关联的实体识别方法。该方法跳出实体数据本身的比较,通过分析实体之间不同类别的语义关联与其作用,并利用实体之间的两种类别的语义关联—相似语义关联和关联语义关联,将歧义实体进行聚类和合并处理,以达到消除实体歧义模糊问题的目的。 针对数据量的急剧增加影响重复数据检测效率的问题,为了更进一步的提高在大规模异构数据整合中而产生的重复数据的检测的效率,提出一种“最可能重复”的数据集划分思想,该思想将最可能是重复的数据划分在一个部分里,以减小重复数据检测的范围。基于此思想结合数据的语义链网络提出一种基于语义关联的数据清理策略。该策略利用数据之间的语义链关系的分析和推理,将最可能是重复数据的数据聚类在同一部分中,以达到减小数据比较次数和提高检测精度,提高检测效率的目的。该方法在提高检测效率的同时,查全查准率的调合平均值高于现有的重复数据检测方法。提高效率的同时,没有对检测的查全查准率带来影响。 随着语义网技术的发展,关联图数据的大量出现也带来了新的挑战。针对关联数据中存在的重复数据清理的问题,提出一种K-半径子图比较方法。该方法针对关联数据间的错综复杂的关系,提出一种关联层次图模型。该模型可以将关联数据之间复杂的关系在简单图中进行清楚的表达,并可以在关联数据中进行无缝转换。并在此模型上,通过对相似节点的“语义上下文”信息的比较,来对数据是否为重复进行判定。从而避免关联图数据中的数据的歧义模糊问题,以提高关联图数据中数据检测的效率。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郝善勇,刘玉树,丁亚军,张健;实时数据采集中的数据清理技术[J];微电子学与计算机;2000年01期
2 鞠同心;孙琦;;轻舟巧过万重山[J];华北电业;2010年01期
3 庄晓青,徐立臻,董逸生;数据清理及其在数据仓库中的应用[J];计算机应用研究;2003年06期
4 费晓燕,张海燕;一种用EM算法进行数据清理的方法[J];空军雷达学院学报;2003年02期
5 王小戈;;如何做好无线电台(站)数据清理登记工作[J];中国无线电;2007年10期
6 刘岩;;全国无线电台站数据清理登记工作总结(摘编)[J];中国无线电;2009年11期
7 孙进;;浅析人力资源数据挖掘中的数据清理[J];福建电脑;2010年12期
8 黄湘林;实现异构数据库间数据共享方法[J];株洲工学院学报;2002年S1期
9 陈伟,丁秋林;具有数据清理功能的交互式数据迁移及应用[J];吉林大学学报(信息科学版);2004年02期
10 代昆玉;胡滨;;基于数据仓库的数据清理技术概述[J];贵州大学学报(自然科学版);2007年03期
11 赵群;;消除重复值数据清理方法的研究[J];福建电脑;2006年04期
12 ;21省(区、市)无线电台站数据清理登记工作启动[J];中国无线电;2007年05期
13 肖智,李勇,李昌隆;一种基于相关分析的数据预处理方法[J];重庆大学学报(自然科学版);2002年06期
14 杜永明;数据仓库中数据质量若干问题的研究[J];福建电脑;2003年01期
15 何玉洁;;构建审计分析数据仓库中的数据清理及转换技术[J];计算机教育;2009年08期
16 邵明豪;;数据预处理技术的具体实现形式研究[J];网络安全技术与应用;2009年06期
17 夏骄雄;徐俊;吴耿锋;;数据清理中同体不同源数据的数化算法研究[J];计算机工程;2007年01期
18 ;郑州市人民政府办公厅关于开展无线电频率台(站)数据清理登记的通知[J];郑州市人民政府公报;2007年08期
19 张洁;王亚芳;王妍;Xiaogang Peng;Zhen Ji;Zongwei Luo;Edward C.Wong;C.J.Tan;;基于p2p技术的RFID网络数据清理模型[J];硅谷;2009年09期
20 张丽;夏宗泽;刘颖;张乐;;以财务为核心的ERP建设数据清理工作实施探讨[J];电力信息化;2009年08期
中国重要会议论文全文数据库 前10条
1 刘奕群;张敏;马少平;;面向信息检索需要的网络数据清理研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 陈堃;李心科;;基于可扩展数据清理框架的元数据的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 向坚;俞坚;叶绿;;一种高效的大规模RFID数据集合清理方法[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
4 向坚;俞坚;叶绿;;一种基于RFID的新传感器数据流在线清理框架[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
5 王桂芹;黄道;;数据预处理技术研究[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
6 叶绿;;基于J2EE的公交停车场管理实现与研究[A];2008’“先进集成技术”院士论坛暨第二届仪表、自动化与先进集成技术大会论文集[C];2008年
7 叶绿;;RFID通用软件构架研究[A];2008’“先进集成技术”院士论坛暨第二届仪表、自动化与先进集成技术大会论文集[C];2008年
8 郭友钊;;论全国区域岩石物性调查[A];中国地球物理学会第二十届年会论文集[C];2004年
9 杨雪梅;林端宜;沈国俊;赖新梅;周常恩;;中药功效术语体系库的建立[A];2009年全国中药学术研讨会论文集[C];2009年
10 游滨;;高等教育出版社信息化成功的关键因素[A];中国编辑研究(2007)[C];2007年
中国重要报纸全文数据库 前10条
1 陈家运;认真开展台站数据清理登记[N];江苏法制报;2007年
2 杨景;进一步做细做实统计数据清理核查工作[N];天水日报;2007年
3 程颖;切实维护空中电波秩序[N];平顶山日报;2007年
4 记者 曹云;我市召开无线电台(站)数据清理登记工作会[N];长治日报;2007年
5 鞠同心;轻舟巧过万重山[N];国家电网报;2009年
6 张虹;我国无线电台站数据清理登记全面启动[N];人民邮电;2007年
7 见习记者 禹超 实习生 杨柳;为奥运会做好通信保障[N];秦皇岛日报;2006年
8 吴德胜 李宏一;数据上收 湖北分行力争安全高效 广西分行启动差异分析[N];中国城乡金融报;2006年
9 李硕;我市开展无线电频率台站数据清理登记工作[N];周口日报;2007年
10 彭文怡记者 傅小冰;数据清理三步走 特种设备监管好[N];中国质量报;2008年
中国博士学位论文全文数据库 前10条
1 刘杰;面向数据集成的数据清理关键技术研究[D];中国科学技术大学;2010年
2 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
3 张旭峰;ETL若干关键技术研究[D];复旦大学;2006年
4 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
5 白爱民;基于客户集群和拓扑理论的CRM模型与算法研究[D];天津大学;2006年
6 满江虹;基于粗糙集的分类知识发现方法及其应用研究[D];东南大学;2005年
7 陈雯;基于本体框架的交通出行语义轨迹建模、标记及数据库研究[D];华东师范大学;2011年
8 楼巍;面向大数据的高维数据挖掘技术研究[D];上海大学;2013年
9 崔安颀;微博热点事件的公众情感分析研究[D];清华大学;2013年
10 余建桥;基于云理论与数据场的空间孤立点挖掘研究[D];西南农业大学;2005年
中国硕士学位论文全文数据库 前10条
1 钟莉云;利用数据沿袭改进数据清理质量的机制的研究[D];西南师范大学;2004年
2 曾理;Hadoop的重复数据清理模型研究与实现[D];南华大学;2010年
3 叶振春;实兵对抗演习评估系统中数据清理方法研究[D];解放军信息工程大学;2011年
4 伍丁辉;教务管理信息系统伪缺失值检测研究[D];南华大学;2010年
5 李俊娴;基于预处理技术的数据清理系统研究与实现[D];南京航空航天大学;2007年
6 王耀平;基于Web Services的西安杨森渠道管理系统开发[D];复旦大学;2008年
7 朱桂松;基于RFID中间件的铁路集装箱堆场管理系统[D];北京交通大学;2009年
8 田悦;基于Hibernate的数据清理系统的设计与实现[D];北京邮电大学;2009年
9 孟卓瑜;XML数据仓库的数据预处理研究与应用[D];解放军信息工程大学;2007年
10 鲁均云;重复和不完整数据的清理方法研究及应用[D];江苏大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978