收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于分布式架构的实体匹配技术

陈杰  
【摘要】:实体匹配技术旨在从给定数据集合中发现描述同一实体或对象的记录。作为一项基础性研究工作,该技术经常被用于数据清洗的领域中。只有对来自同一实体的底层记录进行匹配和清洗,才可以更好地支持上层的数据分析和数据挖掘工作。一直以来,实体匹配工作的研究基于以下两个方面:一是如何有效发现匹配记录;二是如何高效执行匹配工作。而近年来,随着数据总量的爆发增长和数据质量的持续下降,实体匹配工作在以上两方面都遭遇了新的巨大挑战。 在有效性方面,如何尽可能多的发现匹配记录并且尽可能少的引入不匹配记录是研究重点。目前而言,在给定一个样本集合下,从中训练得到的分类器模型就可以较好解决该问题。而基于规则的分类器模型具有快速、简单的特点,因此得到广泛应用。在基于规则的方法中,如何训练学习得到较为合适的规则、距离函数和阀值是关键问题。目前存在的工作只能从人为选定的一组规则中学习得到较为合适的规则,而我们的工作可以自动的学习规则以及其下的距离函数和阀值。 在高效性方面,如何快速的完成实体匹配显得尤为重要。由于记录对两两比较是最为耗时的过程,分块函数只选取具有相似性的候选记录对进行精确比较。虽然分块函数可以提前过滤掉许多不匹配的记录对,候选的记录对总个数仍然显得较为庞大。分布式系统可以利用集群来并发执行任务,提升运行效率。因此,将实体匹配工作扩展到分布式架构中去并发执行任务是非常迫切的。然而简单的扩展就会面临两大挑战:负载均衡和记录对去重。而现有的一些工作并不能较好同时解决这两大挑战。因此,我们首先提出了通用的基于多分块函数的分布式实体匹配模型。随后,我们给出了以上两个挑战的具体解决方案,并且将它们整合到通用模型中。 本文主要的贡献点包括以下几个部分: ·基于规则方法的自动学习.首先,本文基于]F-score形式化定义了什么是最合适的阀值、最合适的距离函数和最合适的规则。并且定义了具体规则下两个记录之间的距离。本文提出了一种启发式算法来高效获取较为合适的规则、距离函数和阀值。最终在真实数据集合上的实验结果表明了我们选取的规则具有较高的有效性。值得一提的是,我们的方法在无须人为给定候选规则的前提下就可以自动发现较为合适的规则。 ·基于多分块函数的分布式架构.首先,我们给出了一种Naive的解决方案,将基于多分块函数的实体匹配工作直接扩展到分布式环境中。然而该方法无法克服负载均衡和记录对去重这两大挑战,性能较为低下。因此我们尝试了一种简单的解决方案,但是发现它过分强调了以上两大挑战而带来了新的问题:混洗阶段的传输成本过高。同时,我们也说明了现有的Dedoop系统无法较好地同时处理这两大挑战,存在不足。基于以上分析,我们给出了较为通用的模型,它包含了四个阶段:块生成、接口实现、记录对比较和记录对清洗。随后,我们给出了具体的负载均衡和记录对去重的解决方案,并且考虑如何将这两个解决方案更好结合一起应用到通用模型中。并在此基础上,我们又提出了两种具体的实现方案:预先分割的接口实现和未预先分割的接口实现。最后,通过一系列在真实和模拟数据集合上的实验,说明了我们提出的模型具有高效性、可扩展性的特点。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 金强;;浅析分布式硬件架构的播出视频服务器及北京电视台新台播出服务器系统方案设计[J];现代电视技术;2010年03期
2 刘同,宋涛,杨杨;Wonderware IAS在黄河下游引黄涵闸远程监控系统中的应用[J];测控技术;2005年10期
3 钱旭;顾巍;陈凌晖;丁晓峰;;网络蠕虫检测系统的设计和实现[J];现代图书情报技术;2007年01期
4 余小高;许传华;;基于Web服务和Agent的P2P金融风险预警系统技术架构研究[J];科技创业月刊;2010年04期
5 许江;;企业应用集成的开发与实现[J];重庆工商大学学报(自然科学版);2006年01期
6 孙旭;杨雪飞;;基于摘要策略的分布式网络视频监控系统[J];微计算机信息;2007年36期
7 杨豪杰;李云;张玉忠;;号码百事通电子商务数据中心研究及实施[J];电信科学;2011年06期
8 张帆;;基于分布式架构的网络流量分析与监控[J];中国科技信息;2008年01期
9 杨大全;熊璐;;数字化网络视频监控系统的设计与实现[J];计算机安全;2008年02期
10 杨大全;熊璐;;数字化网络视频监控系统的设计与实现[J];安防科技;2008年03期
11 陈寅寅;柴颖;叶德建;;TCP传输模式下高并发无线流媒体的控制与播放服务器的研究[J];通信学报;2008年06期
12 刘冰;曹型兵;林磊;;WSN入侵检测系统ARMA预测模型分析研究[J];广东通信技术;2008年11期
13 丁勇;;分层架构体系研究[J];办公自动化;2010年12期
14 许博;陈鸣;胡超;孙瑞锦;;基于NetFlow的P2P流分析系统[J];北京邮电大学学报;2010年02期
15 蔡畅;胡政;宋立军;;柴油机状态监测与故障诊断系统[J];兵工自动化;2006年02期
16 代田田;陈洪亮;张峰;;跨平台分布式WEB服务的自动路由[J];实验室研究与探索;2007年07期
17 庄纪林;;数字图书馆网络服务的监测[J];大学图书馆学报;2008年03期
18 张嗣锋;曹平;张可立;宋克柱;;基于分布式架构的高精度海上工程地震勘探数据获取系统设计与实现[J];中国科学技术大学学报;2011年01期
19 汤泳;李长连;吕英杰;;云计算在业务支撑系统中的应用初探[J];邮电设计技术;2011年10期
20 许朋飞;谷源涛;;ECMA-368标准的MAC协议研究[J];无线通信技术;2009年04期
中国重要会议论文全文数据库 前2条
1 金强;;分布式硬件架构的播出视频服务器及北京电视台新台播出服务器系统方案设计[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(下篇)[C];2009年
2 阎姗;王文力;苏毅;邓峰;郭云峰;唐星;;分布式架构在企业级IPTV管理系统中的应用[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年
中国博士学位论文全文数据库 前1条
1 陈伟;制造企业分布式远程服务系统及其关键技术的研究[D];同济大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈杰;基于分布式架构的实体匹配技术[D];华东师范大学;2014年
2 梁国强;移动Agent技术在GPS/GIS监控系统中的应用[D];大连海事大学;2009年
3 洪燕冰;分布式Java企业信息架构分析与设计[D];厦门大学;2008年
4 徐平;基于GIS的中国极地考察信息管理系统关键技术研究[D];武汉大学;2005年
5 周达文;基于SIP的分布式VoIP防火墙/NAT穿越架构[D];华中科技大学;2006年
6 尹巍;基于JBI规范的分布式ESB中间件的设计与实现[D];浙江大学;2008年
7 李果;面向大数据量的Web服务传输方案研究[D];湖南大学;2010年
8 谢兵;土豆网视频搜索引擎系统的设计与实现[D];上海交通大学;2010年
9 韦达;基于异常挖掘的网络入侵检测[D];北京化工大学;2011年
10 孙向伟;分布式RFID复合事件检测算法及其系统实现[D];大连海事大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978