收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

征信系统中实体匹配方法及应用研究

陈波  
【摘要】: 实体是指社会经济运行过程中有经济活动能力个体或组织,在征信系统中它可以指称个人、家庭、企业、企业集团等。实体匹配就是判定语法不同的信用信息所描述的实体是否具有相同的语义。征信系统是覆盖全国每一个有经济活动能力的实体的信用档案信息系统,它通过采集分散在社会不同部门信用信息,并按照信用实体为主题进行归集和发布的信息系统,为全国每一个有经济活动能力的实体建立其信用档案。征信系统是社会信用体系的基础设施,随着市场经济的不断发展,征信系统在社会经济生活中扮演着越来越重要的角色。 实体匹配是建设全国统一征信系统的技术基础。由于不同数据源信用记录标识主键不同,加之存在数据输入错误、格式、拼写差异等问题,为了实现征信系统的功能目标,需要开展大量信用记录的实体模糊匹配运算。征信系统中实体匹配可以分为三个层次的匹配运算,分别是字段级匹配、记录级匹配和复杂结构级匹配。除此之外还需要解决征信系统所特有的匹配数据量大,采集数据源差别大,范围广,不断扩展等技术难点问题。 本文以征信系统中实体匹配运算为研究对象,按照从不同数据源数据特征学习相应匹配函数的研究思路,主要进行了以下几方面研究: (1)研究了自适应字段匹配问题,提出了基于关联token的自适应字符串相似度计算方法。该算法通过关联token操作集,形式化定义了同音字相似度,提炼不同数据源的词频与关联操作频度的数据特征,并通过对支持向量机训练,以计算适应词频、关联类型等数据特征的匹配分类及相似度计算函数。通过实验验证与对比分析,说明了该算法对于数据源的数据质量、关联类型等都具有良好的适应性。 (2)研究了有标识字段的实体信用记录高效匹配问题,设计了联合分组模型。为了解决大数据量实体信用记录高效匹配问题,通过分组算子抽取了索引和分组运算特征,引入了析取式和析取范式的整体分组式概念,使用多个分组算子联合对实体记录进行分组,设计了联合分组模型,以减少匹配运算中比较次数,提高信用记录匹配运算的效率。最后使用求解覆盖集方法,在保证匹配运算精度的前提下,符合不同数据源特点的最优整体分组式。通过实验验证以上方法具有较高的匹配运算效率。 (3)研究了多数据源无标识字段的实体记录匹配问题。设计了半监督式基于主动学习的实体匹配方法和无监督式基于迭代SVM的自动实体匹配方法。其中前者应用主动学习的思想,首先使用聚类队列建立多个匹配函数学习机组成学习委员会,其次使用匹配熵计算式,由学习委员会在候选训练样本中主动挑选最有利匹配函数学习的实体记录对,实现对实体记录对标识字段与匹配函数自主学习。后者是利用SVM学习机最大化分类超平面与支持向量之间距离的特性,自动学习新数据源的标识字段和匹配函数。首先使用最近邻居法自动选择初始训练样本集,其次应用最大化分类间隔的特点迭代对SVM进行自动训练,使分类超平面逐步逼近匹配实体对与非匹配实体对的分类边界,实现自动的实体匹配函数的学习。通过实验分析了主动学习实体匹配方法和迭代SVM自动实体匹配方法的优点及限制条件。 (4)研究了复杂数据结构的记录簇实体匹配问题。根据记录簇实体的特殊的数据结构,应用赋权二部图理论建立了规范的记录簇实体匹配的数学模型。为了实现高效地记录簇实体匹配运算,设计了记录簇实体上下界匹配算法,使用快速推导出匹配实体阈值的上下界,减少实体所属子记录最大权匹配的计算次数。通过数据实验,验证了本文提出的匹配模型与方法可以有效提高记录簇实体匹配精度和效率。 (5)研究了复杂数据结构的XML半结构化实体匹配问题,通过计算XML文本中不同类型的属性节点在父节点中的权重,设定匹配实体相似度阈值,求取XML转换规则和实体匹配函数,进行XML实体的匹配运算。使用实验数据说明该方法具有良好的匹配分类效率。 本文是在中国人民银行负责建设的全国集中统一的企业与个人征信系统的基础上,通过总结其实体匹配运算所面临的技术瓶颈,分析目前方法中存在的缺陷,提炼,抽象出具体的研究问题。本文提出的实体匹配方法,目前多数都已在个人与企业征信系统中投用,解决了征信系统建设过程中遇到的多数据源、海量数量、复杂结构条件下的实体匹配技术难点问题,取得了实验结果基本一致的良好使用效果。目前企业征信系统实现信贷、结算账户、社保缴费、环境违法信息等15大类共882家机构的信用信息采集与匹配运算。个人征信系统实现信贷、公积金缴存、养老保险、电信欠费等11大类共702家机构的信用信息采集与匹配运算,基本实现了全面统一的实体信用信息归集整理的征信系统建设目标。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 高进;;法定计量检定机构如何实施对记录的有效控制[J];中国计量;2011年04期
2 张良;;例谈会议记录的写作规范及要求[J];秘书之友;2009年06期
3 金光虎;;庆基殿,朝鲜王朝的记忆[J];中外建筑;2010年04期
4 沈旎;;我看到了天空的微笑[J];福建论坛(社科教育版);2007年03期
5 许子涵;读书与看报[J];税收与社会;1999年03期
6 黄春泳;;钻空档 巧推销[J];大众商务;2002年08期
7 范建国;胡红;;中国施工新记录——中铁八局一公司攀临世界建筑高峰[J];法律与生活;2009年10期
8 戴凤春;;数九与九九消寒图[J];海内与海外;2006年12期
9 柳美臣;G&L公司抓出口信息的例子[J];制造技术与机床;1986年07期
10 王晓美;用笔追赶讲话速度——谈如何做好会议记录[J];秘书;2004年08期
11 郭伟明;规范制作《海事(交通)询问笔录》[J];水运管理;2005年04期
12 钱志远;;蓝光市场及其技术动态[J];实用影音技术;2008年04期
13 单祥茹;;WavePro 700Zi系列数字示波器提供综合性能[J];电子设计技术;2008年07期
14 ;齐鲁风韵情[J];现代班组;2009年09期
15 ;大城老字号 小吃大智慧[J];中国市场;2010年38期
16 李冬铃;;操作记录岂能一抄了之[J];中国石油石化;2011年10期
17 李斌;新的信息载体[J];管理科学文摘;1996年07期
18 筱芳;时间干扰记录表[J];连锁与特许;2001年02期
19 郝冬白 ,廖明;谁有权监督移动与联通?[J];新西部;2003年07期
20 阿亚;如何获得商业上的成功[J];发明与创新;2004年03期
中国重要会议论文全文数据库 前10条
1 张丽;王海清;;1:10000基础地理数据转换中模型匹配问题初探[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
2 胡天硕;;地图匹配中的空间实体相似性测度[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
3 罗伟;李陶深;;一种基于本体的个性化搜索引擎模型[A];广西计算机学会2006年年会论文集[C];2006年
4 邬金;;Caris HPD纸海图符号库本地化方法的探讨[A];中国航海学会航标专业委员会测绘学组学术研讨会学术交流论文集[C];2008年
5 陆英姿;;提高大班幼儿运用观察记录自主学习的指导方法研究[A];整合科普资源 优化科教环境——第十五届上海市青少年科技辅导员论文征集活动论文汇编[C];2007年
6 李丽;;儿科护理记录潜在隐患与对策[A];玉溪市第十五届儿科年会论文集[C];2009年
7 郑华;;基于数据世系的数据质量评估框架[A];广西计算机学会2010年学术年会论文集[C];2010年
8 张冀平;袁益林;马进兆;;用频带压缩技术记录雷达信号的原理分析[A];船舶通信与导航(1997)[C];1997年
9 宋维贤;王怀洲;;外伤性视神经病变:历史、现状与展望[A];全省中西医结合、中医、西医眼科学术交流会论文汇编[C];2006年
10 胡蓓蕾;王小同;黄汉津;陈卫东;董其谦;林燕;邹明;;同心圆针电极的单纤维肌电图研究[A];2008年浙江省神经病学学术年会论文汇编[C];2008年
中国博士学位论文全文数据库 前10条
1 陈波;征信系统中实体匹配方法及应用研究[D];大连理工大学;2010年
2 邵世维;基于几何特征的多尺度矢量面状实体匹配方法研究与应用[D];武汉大学;2011年
3 强保华;异构数据库语义集成技术研究[D];重庆大学;2005年
4 张谷丰;基于WebGis的农作物病虫预警诊断平台[D];南京农业大学;2009年
5 卢又燃;放射科随访数据库建立与粗糙集方法辅助诊断胶质瘤分级的应用分析[D];复旦大学;2009年
6 余辉龙;CMOS一体化相机关键技术研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2010年
7 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
8 王德才;基于能量分析的地震动输入选择及能量谱研究[D];合肥工业大学;2010年
9 赵伶俐;面向城镇化数据整合的数据索引方法研究[D];中南大学;2010年
10 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 傅临云;数据万维网自动实体匹配[D];上海交通大学;2010年
2 张蕊;Deep Web环境下重名实体识别研究[D];东北大学;2010年
3 刘常彪;关于记录示性符的一些研究[D];东北大学;2007年
4 谢明吉;数据清洗中相似记录检测的研究[D];华南理工大学;2010年
5 夏睿;燃气集团客户服务中心系统设计与实现[D];北京邮电大学;2011年
6 邵腾刚;基于Xen虚拟机的逆向调试方法研究与实现[D];浙江大学;2010年
7 曾竞;一种高可靠性空管雷达数据记录回放系统的设计与实现[D];电子科技大学;2011年
8 姜春强;航管系统数据记录与重演的设计和实现[D];电子科技大学;2010年
9 张杰刚;中华箭信息审计取证系统的设计与部分实现[D];北京工业大学;2012年
10 张瑜;生猪养殖信息系统的开发[D];东北农业大学;2011年
中国重要报纸全文数据库 前10条
1 郑保章;荟萃经典 记录时代[N];中华新闻报;2003年
2 路小路 李学恒;关注石油发展 记录时代人生[N];文艺报;2004年
3 贾关法;宣传画 记录时代的重笔[N];中国商报;2004年
4 旋覆;李宗盛:希望能够活两次[N];经济观察报;2008年
5 唐小清;《当代汉语新词词典》记录时代变迁[N];黑龙江日报;2004年
6 赵放;三里屯Village再成北京热点[N];国际商报;2008年
7 胡华;创建“和谐”须警惕“好人主义”[N];战士报;2006年
8 冯卓 张铁鹰 余航;销售奖金该如何分配?[N];医药经济报;2006年
9 河北省黄骅市第三中学 赵丽;Excel旧表翻新技巧[N];中国电脑教育报;2005年
10 ;被人冒名做“人流”可以起诉吗?[N];河北日报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978