收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

大数据环境下相似重复记录数据清洗关键技术研究

李蕾  
【摘要】:随着互联网和移动互联网的蓬勃发展,大量的数据正在以极快的速度扩展,全球已进入了大数据时代。大数据隐含着极大的价值,人们越来越希望从大量的数据中挖掘出有价值的信息供管理、决策和调控参考使用。一般情况下,数据挖掘总是假设数据是“干净”和一致的,然而现实中感知数据往往是冗余的、不完整的、错误的,且存在不一致性,这些现象的存在将会降低数据质量,严重影响数据挖掘的结果,从而影响决策的正确制定。因而,对采集到的大数据首先进行数据预处理,提高数据质量,对数据挖掘有着重要的意义。在大数据预处理中,数据清洗是保证数据质量的重要手段之一,在数据清洗中,相似重复记录清洗常用于数据去冗余处理中,去除大数据中大量的冗余数据,这对提高数据质量起着至关重要的作用。而在相似重复记录清洗过程中,数据相似度检测是基础。目前对数据相似度检测方法的研究基本集中在基于字面的字符串相似度检测方面,并且已取得了一定的研究成果,但是根据现有方法所计算出的数据相似度检测结果精确度不是很高;而在基于语义的词语相似度检测方面,研究成果相对较少,而且相关的检测方法还存在许多不足之处。因此需要研究高精度的数据相似度检测方法,对提高数据质量具有重要的意义。本文的研究工作以提高数据相似度检测的精确度为目标,针对大数据中的中英文字符,分别对基于字面的字符串相似度检测方法和基于语义的词语相似度检测方法进行深入研究,主要的内容和创新点如下:1、在基于字面的字符串相似度检测方法方面,提出了一种改进的基于编辑距离的字符串相似度检测方法,该方法在基于编辑距离的相似度检测方法的基础上,综合考虑了数据间公共子序列和公共子串对相似度的影响,通过将编辑距离、最长公共子序列以及最长公共子串进行联合,给出了新的字符串相似度度量表达式。实验结果表明,新方法具有更适中的标准差和极差,使得相似度计算结果更加合理,并且新方法有较高的准确性与灵活性,具有很好的实用性。2、在基于语义的词语相似度检测方法方面,提出了一种改进的基于知网的词语语义相似度检测方法。新方法主要是针对目前常用的基于知网的词语语义相似度检测方法存在的问题进行研究的,由于该传统的方法未深入考虑同一棵树中的两个不同义原的可达路径上所有义原节点的密度对义原距离的影响,或未考虑义原深度与义原密度的主次关系而导致相似度计算结果不够精确,从而使该方法应用受限。为此,新方法定义了一个新的节点间边权重函数,通过在边权重函数中引入两义原可达路径上所有义原节点的密度,并利用权重因子来调整义原深度和义原密度对义原距离的影响,从而提高了相似度的计算精度。实验结果表明,新方法可以更有效的提高词语语义相似度计算精度,比现有方法更具有实用性。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 张明红;佘廉;耿波;;基于情景的结构化突发事件相似度研究[J];中国管理科学;2017年01期
2 陈叶斐;张学军;黄卫东;;基于干扰相似度的多话题演化模型[J];电信科学;2017年09期
3 任雪利;代余彪;;软件相似度在成本估算中的应用[J];计算机应用与软件;2015年06期
4 谭明超;刁兴春;曹建军;冯径;;一种基于函数依赖的属性相似度调整算法[J];上海交通大学学报;2015年08期
5 陈立凤;;河马找亲戚[J];学生之友(童花果);2016年12期
6 周娴莉;;十个中文流行语翻译[J];初中生辅导;2016年36期
7 杜碧涵;;母爱[J];少年月刊;2017年05期
8 仇丽青;陈卓艳;;基于共同邻居相似度的社区发现算法[J];信息系统工程;2014年05期
9 詹雪艳;林兆洲;段天璇;李磊;乔延江;;色谱指纹图谱相似度方法的适应性研究[J];中国中医药信息杂志;2012年05期
10 杨松;楼新远;;基于向量空间模型附加词义特征的句子相似度研究[J];成都信息工程学院学报;2012年03期
11 方文超;马怀礼;;中国-东盟自贸区二周年的比较研究——基于出口相似度与显性比较优势的分析[J];安徽行政学院学报;2012年03期
12 詹雪艳;史新元;段天璇;乔延江;;色谱指纹图谱相似度方法的研究进展[J];中国实验方剂学杂志;2011年02期
13 许鹏远;党延忠;;基于元相似度的推荐算法[J];计算机应用研究;2011年10期
14 支力佳;张少敏;赵大哲;赵宏;林树宽;;互信息启发的相似度组合图像检索算法[J];中国图象图形学报;2011年10期
15 吴雅妮;;相似度法在综合分析投资环境中的应用[J];统计与决策;2009年15期
16 徐晓静;李健;;静态粗相似度的特征[J];山东大学学报(理学版);2006年06期
17 霍明远 ,汪培庄;相似度求解的一般方法与应用[J];求是学刊;1986年01期
中国重要会议论文全文数据库 前10条
1 张乃岳;张学燕;;基于个体词语相似度的定制化动态信息检索[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 李红莲;潘建军;范京;;音节相似度及其在语音识别中的应用[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
3 丁维龙;吴水生;陈琦;程志君;;基于树形结构相似度的植物种类识别系统[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年
4 董刊生;方金云;;基于向量距离的词序相似度算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 郭瑛媚;史晓东;陈毅东;高燕;;基于词的话题分布相似度的无监督日文旅游意见词翻译[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
6 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年
7 Peng Ding;Xin Yan;Zhihong Liu;Jiewen Du;Yuehua Xu;Qiong Gu;Jun Xu;;TarExplorer:基于三维相似度的活性小分子寻靶平台(英文)[A];中国化学会第30届学术年会摘要集-第二十五分会:化学信息学与化学计量学[C];2016年
8 刘晓平;陆劲挺;;任意功能树的物元相似度求解方法[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 罗辛;欧阳元新;熊璋;袁满;;通过相似度支持度优化基于K近邻的协同过滤算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
中国博士学位论文全文数据库 前10条
1 王玉标;基于动态信任建模的云服务可信性评估与选择研究[D];重庆大学;2018年
2 高欣健;多模态相似度学习方法研究[D];合肥工业大学;2017年
3 夏云庆;IHSMTS系统中启发式类比翻译处理机制(HATM)的设计与实现[D];中国科学院研究生院(计算技术研究所);2001年
4 武威;异质数据相似度学习及其在网络搜索中的应用[D];北京大学;2012年
5 张明西;信息网络中的相似度搜索问题研究[D];复旦大学;2013年
6 朱娜斐;基于RTT相似度的网络延迟估测理论和方法[D];北京工业大学;2012年
7 钱鹏飞;基于模糊相似度的异构本体映射、合并及校验方法的研究[D];上海交通大学;2008年
8 朱笑尘;异质过程数据集成与修复[D];清华大学;2015年
9 贾连印;内存数据库中集合相似度及集合包含问题的研究[D];华南理工大学;2012年
10 崔晓兰;面向在线抱怨自动处理的推荐方法研究[D];华中科技大学;2017年
中国硕士学位论文全文数据库 前10条
1 郭炳元;基于语义树的短文本相似度算法研究与应用[D];湘潭大学;2019年
2 赵旭青;基于图像排名相似度和查询自适应特征融合的遥感图像检索[D];南昌大学;2019年
3 苏抒慧;基于本体的基因组变异数据语义查询方法研究[D];哈尔滨工业大学;2019年
4 徐傲丹;基于高阶路径相似度网络的融合模型及多组学数据整合分析方法[D];华南理工大学;2019年
5 张乐;基于深度学习的客服问题相似度识别[D];中国民航大学;2019年
6 李蕾;大数据环境下相似重复记录数据清洗关键技术研究[D];南京邮电大学;2019年
7 高松;基于知识图谱的合作者推荐系统设计与实现[D];大连理工大学;2019年
8 冯爽爽;基于相似度融合的协同过滤推荐算法研究[D];江西农业大学;2019年
9 顾冲;社会化问答网站的社区发现及其服务推送研究[D];武汉理工大学;2018年
10 赵朋磊;基于图神经网络的二进制函数相似度检测算法研究及实现[D];浙江大学;2019年
中国重要报纸全文数据库 前10条
1 杨林;住宿按“相似度”分 体现学生视角[N];北京日报;2017年
2 证券时报记者  韩如冰;基金投资相似度趋高[N];证券时报;2006年
3 胡可;婚姻VS事业相似度揭秘[N];中国妇女报;2019年
4 本报记者 王斌 本报实习生 蒲晓磊;版权局官员:相似度极高的不受保护[N];法制日报;2012年
5 记者 李学梅;研究证实:父亲“偏爱”与自己相像的孩子[N];新华每日电讯;2009年
6 天相投资顾问公司 张新文;风格稳定基金业绩更胜一筹[N];证券时报;2007年
7 记者 刘妮;曾维会见日本新任驻沈总领事[N];沈阳日报;2012年
8 小新;妊娠中毒症与夫妇HLA基因相似度有关[N];中国医药报;2007年
9 海潮;俄研究发现妊娠中毒症疑与夫妇HLA基因相似度有关[N];中国医药报;2007年
10 栾海;妊娠中毒症可能与夫妇 HLA基因相似度有关[N];医药经济报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978