收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

信息抽取中实体关系识别研究

张奇  
【摘要】: 信息抽取研究随着互联网的发展变得越来越重要,一个典型的信息抽取任务是从无结构化或者半结构化的文本中,通过信息抽取技术,提取人们所感兴趣的内容,并以结构化的形式,例如关系数据库形式或者XML形式保存下来。信息抽取技术可以应用于多个领域,比如学术搜索、商品搜索、文本挖掘、知识库构建等等。由于信息抽取技术的广泛应用,信息抽取算法的研究越来越成为当前信息检索领域的热点。 信息抽取任务包含了多个子任务,比如事件抽取和共指关系确定等等。但是从应用的广泛程度以及研究的深入程度来看,信息抽取任务包含了两个主要的子任务:命名实体识别任务和实体关系抽取任务。命名实体识别子任务的目标主要是识别文本中包含的各种名实体,比如:人名、地名、公司组织名和时间短语等等。而实体关系抽取子任务的目标主要是发现和识别隐含在实体与实体之间的关系。因此从广义上来说,实体关系抽取包含了命名实体识别任务。 目前信息抽取研究已经取得了很多的成果,也越来越走入人们的日常生活,比如像谷歌的本地搜索等等。但是信息抽取技术仍然面临着很多困难。成熟的信息抽取系统往往采用模式匹配的方法,因而只能局限于某些特定的实体类型和实体关系类型或者只能局限于某些特定的领域。而采用统计学习的方法的系统,往往局限于对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果往往不尽如人意。 本论文对信息抽取工作的已有研究成果进行了总结,分析了信息抽取任务的关键问题,并在命名实体识别、实体关系抽取以及实体关系时间属性抽取等方面进行了研究,提出了相应的解决方法。 论文首先介绍了信息抽取系统的发展历史和相应的研究成果。分别介绍了命名实体识别和实体关系抽取这两个子任务的关键技术、相关研究以及存在的问题。 边界分割是中文命名实体识别算法中的一个关键问题。论文提出了一种基于网页结构特征的候选实体生成算法,并将中文实体识别问题转化为一个分类问题。同时论文提出了基于DOM-Tree的实体关联算法,根据树距离就近原则和相关信息不冲突原则,提高了实体之间关联的准确度。 深层语义特征的利用是实体关系抽取中的一个研究热点。论文提出了一种基于链接语法的实体关系抽取方法,该算法根据词与词之间的依赖语法关系,定义了深层的语法特征,并利用监督学习的方法加以识别,从而提高了抽取的准确度。同时该算法还考虑了实体关系的时间属性抽取,进一步完善了实体关系含义的完整性。 知识库的建设是信息抽取系统的主要应用之一。本论文提出了一种带时间属性的知识库的创建方法。首先给出了带时间属性知识库的表示模型以及时间属性的演算法则,并针对半结构化数据和无结构化数据分别设计了相应的抽取算法。在缺乏时间属性的情况下,论文采用了基于页面级别的时间属性推理方法和基于知识库级别的时间属性推理方法,提高了算法的覆盖率。 最后论文还关注了未定义类型实体关系抽取方法,部分解决了大部分信息抽取系统只能处理预定义关系类型的瓶颈。算法采用了基于语义角色标注的关系类型动态识别方法,并采用条件随机场作为标注工具,将未定义类型实体关系识别问题通过标注的方法解决。论文的主要贡献可以总结为如下几个方面: 1)提出一种基于网页结构的中文命名实体识别和关联算法。设计了基于网页结构特征的候选实体生成技术;提出了基于DOM-Tree的实体关联原则:树距离就近原则和相关信息不冲突原则。 2)提出一种基于深层语义特征的带时间属性实体关系识别算法。采用了词与词之间的依赖语法关系作为识别特征;抽取实体关系的同时考虑了时间属性的识别。 3)提出一种带时间属性的知识库构建方法。设计了带时间属性知识库模型;构建了基于模式匹配和统计学习方法的抽取框架;提出了页面级别和知识库级别的时间属性推理方法。 4)提出了一种未定义实体关系识别算法。利用了语义角色标注算法作为识别特征;提出了基于条件随机场的标注方法。


知网文化
【相似文献】
中国期刊全文数据库 前11条
1 牟晋娟;包宏;;中文实体关系抽取研究[J];计算机工程与设计;2009年15期
2 王丽客;孙媛;刘思思;;基于多级注意力融合机制的藏文实体关系抽取[J];智能科学与技术学报;2021年04期
3 丰小丽;张英俊;谢斌红;赵红燕;;基于集成学习方法的实体关系抽取[J];计算机系统应用;2021年06期
4 陈果;许天祥;;小规模知识库指导下的细分领域实体关系发现研究[J];情报学报;2019年11期
5 刘绍毓;李弼程;郭志刚;王波;陈刚;;实体关系抽取研究综述[J];信息工程大学学报;2016年05期
6 郭喜跃;何婷婷;胡小华;陈前军;;基于句法语义特征的中文实体关系抽取[J];中文信息学报;2014年06期
7 徐健;张智雄;吴振新;;实体关系抽取的技术方法综述[J];现代图书情报技术;2008年08期
8 周博学;;一种基于先验知识的实体关系联合抽取模型[J];信息技术;2022年04期
9 刘辉;江千军;桂前进;张祺;王梓豫;王磊;王京景;;实体关系抽取技术研究进展综述[J];计算机应用研究;2020年S2期
10 张明芳;余正涛;郭军军;高盛祥;线岩团;;联合罪名预测的涉案新闻重叠实体关系抽取[J];南京理工大学学报;2021年01期
11 刘丽;;基于联合学习方法的实体关系抽取[J];电子技术与软件工程;2021年08期
中国重要会议论文全文数据库 前13条
1 陈政波;华召云;马佳丽;王渊;孙嘉伟;;基于依存句法分析的电网自由文本实体关系抽取与知识图谱构建方法研究[A];第三届智能电网会议论文集——智能用电[C];2019年
2 ;知识图谱发展报告(2018) 第四章 实体关系学习[A];知识图谱发展报告(2018)[C];2018年
3 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 张苇如;孙乐;韩先培;;基于维基百科和模式聚类的实体关系抽取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 王浩畅;赵铁军;于浩;;基于文本的生物信息获取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 甘甜;莫倩;张华平;;基于搜索引擎的人物社会关系抽取研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 姚天昉;;一种用于汉语信息抽取的词汇本体[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 王智坚;李水平;包洋;李金娟;张莨;;烟叶交售排队系统的设计与分析[A];中国烟草学会2016年度优秀论文汇编—— 信息化管理主题[C];2016年
11 王磊;;基于OpenIE技术的人工智能信息抽取方法浅析[A];荆楚学术2017年第7期(总第十五期)[C];2017年
12 王磊;;基于OpenIE技术的人工智能信息抽取方法浅析[A];荆楚学术2017年第8-9期[C];2017年
13 石志强;李涛;孙延涛;;基于以太网的宽带社区网络管理系统[A];2003年通信软件技术学术年会论文集[C];2003年
中国博士学位论文全文数据库 前20条
1 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
2 孙长志;基于深度学习的联合实体关系抽取[D];华东师范大学;2019年
3 郑巍;基于文本挖掘的生物医学实体关系抽取研究[D];大连理工大学;2018年
4 张晓峰;基于核方法的实体关系抽取研究[D];东南大学;2016年
5 赵哲焕;生物医学实体关系抽取研究[D];大连理工大学;2017年
6 郭喜跃;面向开放领域文本的实体关系抽取[D];华中师范大学;2016年
7 刘作国;网络文本的实体关系抽取方法研究[D];贵州大学;2020年
8 顾静航;面向生物医学领域的实体关系抽取研究[D];苏州大学;2017年
9 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
10 陈忱;面向Web的实体关系查询与分析关键技术研究[D];东北大学;2013年
11 甘丽新;基于句法和语义分析的中文实体关系抽取[D];江西财经大学;2017年
12 王也;生物医学领域实体关系抽取研究[D];吉林大学;2020年
13 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
14 陈宇;基于深度置信网络的中文信息抽取方法[D];哈尔滨工业大学;2014年
15 王海林;面向文本数据的关系抽取关键技术研究[D];电子科技大学;2022年
16 张春云;实体关系抽取算法研究[D];北京邮电大学;2015年
17 李蓉蓉;面向复杂语义的专利本体构建方法研究[D];武汉大学;2014年
18 谭真;面向非结构化数据的知识图谱构建与表示技术研究[D];国防科技大学;2018年
19 吴烨;基于图的实体关系关联分析关键技术研究[D];国防科学技术大学;2014年
20 赵红燕;基于框架语义表示的关系抽取技术研究[D];山西大学;2021年
中国硕士学位论文全文数据库 前20条
1 肖思琪;基于文本生成式的实体关系抽取算法研究与系统实现[D];北京邮电大学;2020年
2 尹思义;某公安询问笔录管理系统实体关系抽取模块的设计与实现[D];北京邮电大学;2021年
3 李成;基于深度学习的实体关系抽取研究与实现[D];西安电子科技大学;2020年
4 苟继承;基于远程监督的军事实体关系抽取应用研究[D];电子科技大学;2020年
5 刘绍毓;实体关系抽取关键技术研究[D];解放军信息工程大学;2015年
6 孙偲;基于深度强化学习的文本实体关系联合抽取研究[D];华侨大学;2020年
7 王久阳;基于实体关系联合抽取方法的情感倾向性分析研究[D];北方工业大学;2020年
8 孙旭东;基于深度神经网络的联合实体关系抽取[D];深圳大学;2019年
9 蒋贻顺;基于规则匹配与神经网络学习的中文实体关系抽取研究[D];合肥工业大学;2019年
10 武文雅;基于卷积神经网络的实体关系抽取方法研究[D];北京交通大学;2019年
11 周炀;基于语义权重和注意力的实体关系抽取研究[D];华南理工大学;2019年
12 周滋楷;面向开放领域文本的实体关系抽取技术研究[D];华南理工大学;2019年
13 刘壮;融合知识库和文本信息的实体关系抽取研究[D];大连理工大学;2019年
14 李青青;生物医学实体关系抽取算法与应用研究[D];大连理工大学;2019年
15 杨希;面向海量生物医学文献的实体关系提取方法及其应用研究[D];国防科技大学;2017年
16 冯贤鹤;基于LSTM的实体关系抽取研究[D];云南财经大学;2019年
17 叶柏椿;基于深度学习的信息抽取设计与实现[D];成都理工大学;2019年
18 刘勇杰;基于注意力机制的开放域实体关系抽取[D];哈尔滨工业大学;2019年
19 李创;基于深度学习的实体关系抽取方法研究[D];华中科技大学;2019年
20 陈佳沣;基于强化学习的实体关系联合抽取模型研究[D];武汉大学;2019年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978