收藏本站
《北京邮电大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

面向异构大数据集成的实体识别技术研究

张福麟  
【摘要】:随着信息化时代的到来,各行各业都产生和积累了大量的数据,人们不仅需要管理和操作这些数据,更重要的是将这些异构的数据进行关联、集成之后,进行相应的分析能产生巨大的价值。大数据集成中用到关键技术之一就是实体识别,也是大数据集成的基础。在海量、异构、含噪音的大数据环境中的实体识别工作,一般需要使用模式无关的分块技术降低两两匹配的记录数,同时又需要能够快速高效完成实体匹配工作。因此,本文针对大数据集成中的实体识别技术,主要研究其分块技术和匹配技术两部分。第一、针对实体识别工作中传统的依赖先验知识的分块算法无法应用到大数据集成工作中这一问题,本文研究提出了一种基于token的模式无关的分块技术,通过增加冗余比较来完成海量、异构、含噪音的大数据环境中的分块工作;同时,在Meta-blocking技术基础上提出了一种新的基于累积权重的剪枝方案,能够进一步帮助降低分块后块内产生的冗余比较,进而达到提升效率的目的。最后在真实数据集上通过仿真实验验证,将所设计的基于token的模式无关分块技术和基于累积权重的剪枝算法与已有的技术做了分析对比,实验结果证明本文算法能够高效的在异构、噪音环境中完成分块工作,是可行的、合理的。第二,针对实体识别中实体匹配阶段的效率问题,本文基于局部敏感哈希的思想扩展了传统的N-gram算法,并重新定义了传统的基于海明距离的局部敏感哈希算法中的距离度量公式,解决了局部敏感哈希算法无法应用到短记录匹配中的缺陷。通过这些技术,既能应对大数据环境中的噪音问题,又能够在实体匹配中使用局部敏感哈希技术达到快速完成记录匹配的目的。最后在数据集上通过仿真实验验证,将所设计的基于局部敏感哈希的N-gram算法与已有的技术做了对比分析,实验结果证明本文的算法能够有效提升实体匹配工作的效率,是可行的、合理的。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前3条
1 韩姝敏;申德荣;聂铁铮;寇月;于戈;;一种基于隐私保护下的多方记录链接方法[J];软件学报;2017年09期
2 孟小峰;杜治娟;;大数据融合研究:问题与挑战[J];计算机研究与发展;2016年02期
3 刘显敏;李建中;;实体识别问题的相关研究[J];智能计算机与应用;2013年02期
【共引文献】
中国期刊全文数据库 前10条
1 胡璐锦;蔡俊;李海生;;基于时空地理格网的空间数据融合方法[J];测绘与空间地理信息;2018年08期
2 吴笑宇;;探究双十一应用的技术[J];数字通信世界;2018年07期
3 王永志;金樑;朱月琴;白明;包晓栋;;基于大数据技术的地学文档关键词提取算法研发[J];地球物理学进展;2018年03期
4 何友;熊伟;刘俊;刘瑜;;海上信息感知与融合研究进展及展望[J];火力与指挥控制;2018年06期
5 刘敏;;大数据融合技术的研究及典型应用[J];辽宁科技学院学报;2018年03期
6 赵尔平;党红恩;刘炜;;西藏智慧畜牧业领域大数据融合:概念、架构与技术[J];软件导刊;2018年07期
7 梁国龙;赵天白;邹男;张博轩;;基于Chan算法的水下测控设备组网数据融合技术研究[J];电子与信息学报;2018年05期
8 张文英;耿秋实;张雪莹;李慧波;;天空地一体化大数据在社会安全领域的应用[J];电脑知识与技术;2018年10期
9 高广尚;;面向实体解析的无监督聚类方法综述[J];计算机工程与应用;2018年07期
10 李光荣;王志亮;李翔英;;基于物联网的企业共享大数据融合研究[J];南京工程学院学报(自然科学版);2018年01期
【相似文献】
中国期刊全文数据库 前10条
1 谢子秋;唐锦辉;李刚;夏海朋;周宇;孙熹;柳燕杰;蒋海泥;;医疗质量管理系统全数据集成[J];中国数字医学;2017年05期
2 华镕;;数据集成:二、数据集成101[J];中国仪器仪表;2016年10期
3 吴钰峰;;云计算数据集成与服务系统的构建[J];数码世界;2016年12期
4 韩蕊;;大数据呼唤数据集成新思维[J];互联网周刊;2013年22期
5 褚鸿君;;数据联邦促进企业数据集成[J];软件世界;2008年01期
6 周冰;;调查显示:数据集成获中国企业认同[J];信息化纵横;2008年08期
7 董峰;李晋宏;;企业数据集成综述[J];中国金属通报;2008年42期
8 陈默;;Sybase推出新款软件[J];计算机与网络;1998年06期
9 王拓,王伟;CIMS的数据集成[J];计算机研究与发展;1994年01期
10 鲁玉峰;李丹;王硕;;基于信息资源管理的制造企业数据集成规划的研究[J];智能制造;2016年10期
中国重要会议论文全文数据库 前10条
1 路辉;;基于数据集成与共享构建系统[A];物联网与电力新技术——2014年云南电力技术论坛论文集[C];2014年
2 许国艳;王志坚;;基于主动服务的领域数据集成研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
3 李宗华;肖道纲;彭明军;;数字武汉空间基础数据集成建库及应用[A];坚持科学发展观 推进自主创新 促进国家创新型城市建设——武汉市第二届学术年会论文集[C];2006年
4 乔慧捷;赵海军;纪力强;;生物多样性数据集成模式初探[A];第五届全国生物多样性保护与持续利用研讨会论文摘要集[C];2002年
5 李宗华;彭明军;;规划国土资源管理空间数据集成应用与运行机制探讨[A];2004城市规划年会论文集(下)[C];2004年
6 曾惠兰;曾松峰;廖斌;;柔性数据集成助推坚强智能电网[A];2009电力行业信息化年会论文集[C];2009年
7 叶群峰;;基于SOA的企业数据集成交换的研究与实践[A];中国烟草学会2014年学术年会入选论文摘要汇编[C];2014年
8 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
9 刘跃军;艾鸿;刘国华;;数据集成中的XML查询重写[A];2005年全国理论计算机科学学术年会论文集[C];2005年
10 陆新建;王建新;田双昌;;新一代流程工业生产实时数据集成方案[A];2009中国过程系统工程年会暨中国mes年会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 Ronald van Loon;大数据的未来掌控于数据集成[N];中国信息化周报;2017年
2 佚名;现代数据集成很重要[N];中国信息化周报;2017年
3 本报记者 王若曦;数据集成分析 能源互补协调[N];中国电力报;2017年
4 浙江义乌市局(分公司) 陈兵来;数据集成让决策更科学[N];东方烟草报;2014年
5 吕梁市煤炭设计研究院 张萍;浅析数据集成环境下煤炭企业管理信息系统的构建[N];吕梁日报;2012年
6 陈友梅;数据集成 永中Office之本[N];中国计算机报;2002年
7 本报记者 于翔;数据集成开启云征程[N];网络世界;2010年
8 于翔;集成即服务:面向云的数据集成[N];网络世界;2009年
9 通讯员 张一龙 本报记者 祁文运;标准线牵引标准化建设[N];国家电网报;2008年
10 ;SaaS需要数据集成[N];网络世界;2007年
中国博士学位论文全文数据库 前10条
1 陈义;面向数据集成的数据复制和查询优化[D];中国科学院研究生院(软件研究所);2004年
2 曹顺良;生物学数据集成若干关键问题研究[D];复旦大学;2005年
3 孟永胜;装备制造业产品制造数据集成管理研究与应用[D];大连理工大学;2006年
4 王学军;基于GIS的石油勘探开发数据集成管理技术研究[D];中国地质大学(北京);2017年
5 鄂新华;面向服务的数据集成若干关键技术研究[D];北京邮电大学;2015年
6 姜朔;数据空间中数据集成若干关键问题研究[D];东华大学;2014年
7 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
8 李雁妮;深网数据集成与挖掘关键问题的建模及算法研究[D];西安电子科技大学;2013年
9 郑阶财;非结构化数据的相关问题研究[D];山东大学;2017年
10 李冠宇;基于智能体和本体的语义数据集成研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 李磊;基于ETL的数据集成及交换系统的实现与优化[D];北方工业大学;2018年
2 张福麟;面向异构大数据集成的实体识别技术研究[D];北京邮电大学;2018年
3 刘寒啸;易天数据管理系统数据集成和数据分析模块的设计与实现[D];南京大学;2018年
4 李磊;人员数据集成管理平台的设计与实现[D];北京交通大学;2017年
5 郭绍永;基于协同工作的分布式数据集成的研究与实现[D];武汉理工大学;2009年
6 吕岳东;基于本体的科学数据集成与共享方法研究[D];太原科技大学;2010年
7 周幼静;临床数据集成浏览终端的设计与实现[D];浙江大学;2006年
8 程颖;区域异构医疗数据集成与交换技术的研究与实现[D];河北科技大学;2017年
9 冯尚攀;异构知识仓库数据集成关键技术的研究与实现[D];北京邮电大学;2016年
10 姬广龙;基于税务云平台的数据集成流程的设计与实现[D];山东大学;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026