收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

实体搜索与实体解析方法研究

姜丽丽  
【摘要】:从非结构/半结构化数据中快速准确地搜索到各种实体(例如人名、组织机构、产品和药品)及其相关信息成为很多应用的关键,包括信息检索、推荐系统和社交网络等。近几年的研究成果显示,实体相关搜索占互联网查询的很大一部分,并且这个比例在不断上升。相对于单个字符或者指定长度的短语,实体能够更准确的描述文本的语义特征,从而帮助用户快速了解文本的核心内容。然而,随着互联网数据的不断增长,信息检索变得越来越困难,尤其是实体的不唯一性(歧义性)成为一个普遍存在的问题。首先,许多不同的实体拥有完全相同的名称,例如在中国有超过29万人叫“张伟”;在查询框中输入一个实体名称,搜索引擎返回的前100个网页常常会涉及到多个共享相同名字的不同对象。其次,同一个实体常常会以多种形式存在于不同数据源中(即别名),例如“中华人名共和国”常常被称为“中国”或“P.R.C”;刘翔曾被誉为“亚洲飞人”等。在医药业的“一药多名”和“一名多药”问题也很严重,药品名称的不唯一性匹配,为正确用药带来了巨大的阻碍。以上两个问题分别为实体同名歧义和实体别名识别,这两个问题的解决过程是相对的同时也是密切相关的,他们是实体搜索和解析过程中的两个最重要的问题。本篇文章针对实体搜索工作进行了大量的调研,分析了包括表层网络、社交网络以及企业内部网络等不同来源的数据特性。并针对实体同名歧义和实体别名问题分别提出有效的解决方案。此外,基于本文提出的实体同名消歧的解决方案,我们开发了一个人物搜索系统。并对本文提出的别名发现解决方案进行扩展,使其适用于动态数据环境。在这些研究中,我们重在对非结构化文本进行分析,充分利用自然语言处理方法探索文本中的单词、实体、句子的结构特征和内容特征,通过数据挖掘算法为这些信息建立联系,以解决实体搜索和实体解析中遇到的问题。本论文的主要贡献如下: 1.实体搜索综述。介绍了实体搜索中遇到的问题及采用的技术方法,简单描述了现有人名搜索系统、人名搜索相关问题及未来研究方向。 2.实体同名消歧。以人名消歧为例进行相关研究,利用自然语言处理工具对搜索引擎返回的非结构化文档进行命名实体提取,将提取的实体作为人物标签,建立基于实体标签的图结构,最终为拥有相同姓名的不同的人分配实体标签对其进行唯一性描述。另外,我们开发的人名搜索系统将给定的人名作为查询词,输入到现有搜索引擎(即谷歌、雅虎或必应)中,利用我们提出的消歧方法对返回的结果进行人物同名消歧,使得用户可以清晰看到拥有查询人名的不同人物的关键实体信息。 3.实体别名发现。本文对实体-别名之间存在字符串相似性和无字符串相似性的两种情况分别进行研究。对于第一种情况,我们首先基于字符相似性提取出别名候选,然后建立实体-关系图进行别名选取。对于别名与原实体基本不存在字符相似性的情况,研究工作面临更多挑战,本文提出基于实体子集分割的方法进行别名候选的筛选,然后通过主动学习的分类方法来确定给定实体的最终别名。总体来说,本文的实体别名发现方法旨在通过探索给定数据集中实体之间的关系,设计初始过滤方法来提取给定实体的别名候选,然后使用非监督式/监督式方法来探寻给定实体与别名候选之间的相关性,最终为每一个给定实体输出一个别名列表。 4.动态实体别名发现。随着新的数据添加到给定数据集中,基于这个数据集而建立的实体-关系图结构也需要进行相应的更新操作(点边的插入、删除和修改),以往的静态解决方案已不再适用于这样的动态环境,因此,本文提出基于实体索引的路径搜索方法,以此来实现动态图的更新,并将这个动态方案用于增量式的实体别名发现问题中。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 曹健,黄越,张申生;支持协同产品开发的产品数据管理模型研究[J];高技术通讯;2002年03期
2 范建永;熊伟;刘建忠;;基于OCI方式空间数据访问引擎的设计与实现[J];地理与地理信息科学;2008年01期
3 何继潮;一种基于联系的数据库设计方法[J];计算机学报;1987年10期
4 严小卫,樊明武;时态实体-关系数据模型TER的研究[J];小型微型计算机系统;1999年01期
5 张跃华;;基于实体类生成器的设计与实现[J];电脑知识与技术;2009年18期
6 张家明,周伯鑫,宋文忠;关系数据库模式向面向对象数据库模式的转换[J];东南大学学报(自然科学版);1998年02期
7 季丽萍;;浅谈.NET三层结构及其应用[J];福建电脑;2009年06期
8 李泽民;王小振;;基于实体模型的通用作战仿真引擎设计[J];电脑知识与技术;2010年03期
9 徐福缘;构造IDEF_0和IDEF_1模型[J];计算机应用与软件;1990年01期
10 周立柱,王小京,衣丰超,王健斐;面向对象的语义关联数据模型查询语言在C语言中的嵌入[J];软件学报;1992年01期
11 王宁;王延章;于淼;叶鑫;;面向协同工作的信息流模型研究[J];计算机科学;2005年10期
12 任树敬;赵彦庆;周毅;;OCI方式地理数据访问引擎的设计[J];测绘通报;2006年11期
13 张少应;;基于实体类的数据库访问技术的研究与实现[J];计算机与信息技术;2009年05期
14 莫佳;汪利文;;实体类到关系模式的映射方法[J];山东理工大学学报(自然科学版);2008年02期
15 徐永嘉,曾庆丰,田志良;用统一建模语言(UML)设计关系数据库[J];昆明理工大学学报;2001年02期
16 姚键,孙虎,陆荣,王磊;面向对象的方法在软件设计中的应用研究[J];计算机工程与设计;2001年02期
17 龚君展;翁兆恒;胡柏顺;;中国企业的数据模型[J];现代科学仪器;1992年02期
18 包海挺;刘飞飞;;ER模型的语义概念集合和表示法[J];科技情报开发与经济;2006年06期
19 王孝通,华承相;代数语言的二维可视界面[J];计算机工程;1994年S1期
20 黄鑫;朱巧明;钱龙华;刘梅梅;;基于特征组合的中文实体关系抽取[J];微电子学与计算机;2010年04期
中国重要会议论文全文数据库 前10条
1 黄艳华;孙文磊;;二维视图特征自动识别的新途径[A];先进制造技术论坛暨第二届制造业自动化与信息化技术交流会论文集[C];2003年
2 郭洪霖;邢薇;王艳;;Hibernate注释映射的研究与应用[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
3 王孝通;杨德礼;邓贵仕;;面向问题的建模环境[A];1996中国控制与决策学术年会论文集[C];1996年
4 张建军;周继鹏;葛玮;;基于逻辑模型的DB模式向关系模式的形式化转换方法[A];第十一届全国数据库学术会议论文集[C];1993年
5 张海雷;曹菲菲;陈文亮;任飞亮;王会珍;朱靖波;;基于多层次特征集成的中文实体指代识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 李文武;苏震;白宗成;代淑明;;用XML Schema描述EXPRESS的模型和数据[A];全国先进制造技术高层论坛暨制造业自动化、信息化技术研讨会论文集[C];2005年
7 陆汝占;;中文检索与汉语语义概念图表示[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 高德军;宋承祥;刘弘;;基于UML的医院信息化建模与实现[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
9 张霞;单吉弟;周云凤;郑怀远;;CIMBASE全局数据模型和语言的设计与实现[A];第十届全国数据库学术会议论文集[C];1992年
10 丁昕苗;李鹏林;;基于JAVA嵌入技术的移动导航系统中GPS报文解析模块的设计与实现[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 姜丽丽;实体搜索与实体解析方法研究[D];兰州大学;2012年
2 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
3 江涛;特定领域元建模语言的形式化及其模型一致性验证研究[D];云南大学;2010年
4 陆宁;基于BIM技术的施工企业信息资源利用系统研究[D];清华大学;2010年
5 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
6 张洋;基于BIM的建筑工程信息集成与管理研究[D];清华大学;2009年
7 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年
8 赵雷;域数据模型的研究与实现[D];苏州大学;2006年
9 李淑霞;地名本体及其在地理空间数据组织中的应用研究[D];解放军信息工程大学;2009年
10 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 董傲通;Web数据集成中实体统一问题研究[D];山东大学;2011年
2 张毅;IGES图形浏览器的研究与实现[D];西安建筑科技大学;2009年
3 曲明宇;使用新型面向对象分析方法PARSER开发契税软件[D];东北大学;2009年
4 谢永康;一种基于谱聚类的共指消解方法[D];复旦大学;2009年
5 陶勇强;基于Asp.Net和Ajax技术的BBS系统的设计与研究[D];南昌大学;2010年
6 彭小平;湖南涉外经济学院办公室综合信息管理系统的设计与实现[D];山东大学;2011年
7 毛存礼;基于短信的旅游领域实体问答系统研究[D];昆明理工大学;2011年
8 丁静;基于Google云平台的iOS游戏社区[D];大连理工大学;2012年
9 任俊威;C#代码升级系统通用工具开发[D];吉林大学;2007年
10 吴玉春;基于web的图书馆管理信息系统的分析与设计[D];南昌大学;2007年
中国重要报纸全文数据库 前10条
1 浙江大学 胡锡伟陈德人;UML提升汽配销售管理水平[N];中国计算机报;2007年
2 李涛;建银科技更名中投科技中投旗下资产整合启动[N];第一财经日报;2007年
3 记者 储兴华;探讨证券市场变化与投资决策[N];中国证券报;2001年
4 李晓萍;国内安防企业取得国际认证有了直通车[N];人民公安报;2008年
5 郭强;淮安财政改革亮点纷呈[N];江苏经济报;2008年
6 汪桔;外经企业国内经营环境的分析[N];国际商报;2002年
7 商报实习记者 张绪旺;破解10亿人名准确拼写之谜[N];北京商报;2010年
8 卢志坚 马融;江苏统一办案工作流程和质量考评标准[N];检察日报;2005年
9 江舒;藏族人名汉字音译将有规可循[N];西部时报;2010年
10 卢志坚 马融;统一办案工作流程和办案质量考评标准[N];江苏法制报;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978