收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

信息抽取中实体关系识别研究

张奇  
【摘要】: 信息抽取研究随着互联网的发展变得越来越重要,一个典型的信息抽取任务是从无结构化或者半结构化的文本中,通过信息抽取技术,提取人们所感兴趣的内容,并以结构化的形式,例如关系数据库形式或者XML形式保存下来。信息抽取技术可以应用于多个领域,比如学术搜索、商品搜索、文本挖掘、知识库构建等等。由于信息抽取技术的广泛应用,信息抽取算法的研究越来越成为当前信息检索领域的热点。 信息抽取任务包含了多个子任务,比如事件抽取和共指关系确定等等。但是从应用的广泛程度以及研究的深入程度来看,信息抽取任务包含了两个主要的子任务:命名实体识别任务和实体关系抽取任务。命名实体识别子任务的目标主要是识别文本中包含的各种名实体,比如:人名、地名、公司组织名和时间短语等等。而实体关系抽取子任务的目标主要是发现和识别隐含在实体与实体之间的关系。因此从广义上来说,实体关系抽取包含了命名实体识别任务。 目前信息抽取研究已经取得了很多的成果,也越来越走入人们的日常生活,比如像谷歌的本地搜索等等。但是信息抽取技术仍然面临着很多困难。成熟的信息抽取系统往往采用模式匹配的方法,因而只能局限于某些特定的实体类型和实体关系类型或者只能局限于某些特定的领域。而采用统计学习的方法的系统,往往局限于对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果往往不尽如人意。 本论文对信息抽取工作的已有研究成果进行了总结,分析了信息抽取任务的关键问题,并在命名实体识别、实体关系抽取以及实体关系时间属性抽取等方面进行了研究,提出了相应的解决方法。 论文首先介绍了信息抽取系统的发展历史和相应的研究成果。分别介绍了命名实体识别和实体关系抽取这两个子任务的关键技术、相关研究以及存在的问题。 边界分割是中文命名实体识别算法中的一个关键问题。论文提出了一种基于网页结构特征的候选实体生成算法,并将中文实体识别问题转化为一个分类问题。同时论文提出了基于DOM-Tree的实体关联算法,根据树距离就近原则和相关信息不冲突原则,提高了实体之间关联的准确度。 深层语义特征的利用是实体关系抽取中的一个研究热点。论文提出了一种基于链接语法的实体关系抽取方法,该算法根据词与词之间的依赖语法关系,定义了深层的语法特征,并利用监督学习的方法加以识别,从而提高了抽取的准确度。同时该算法还考虑了实体关系的时间属性抽取,进一步完善了实体关系含义的完整性。 知识库的建设是信息抽取系统的主要应用之一。本论文提出了一种带时间属性的知识库的创建方法。首先给出了带时间属性知识库的表示模型以及时间属性的演算法则,并针对半结构化数据和无结构化数据分别设计了相应的抽取算法。在缺乏时间属性的情况下,论文采用了基于页面级别的时间属性推理方法和基于知识库级别的时间属性推理方法,提高了算法的覆盖率。 最后论文还关注了未定义类型实体关系抽取方法,部分解决了大部分信息抽取系统只能处理预定义关系类型的瓶颈。算法采用了基于语义角色标注的关系类型动态识别方法,并采用条件随机场作为标注工具,将未定义类型实体关系识别问题通过标注的方法解决。论文的主要贡献可以总结为如下几个方面: 1)提出一种基于网页结构的中文命名实体识别和关联算法。设计了基于网页结构特征的候选实体生成技术;提出了基于DOM-Tree的实体关联原则:树距离就近原则和相关信息不冲突原则。 2)提出一种基于深层语义特征的带时间属性实体关系识别算法。采用了词与词之间的依赖语法关系作为识别特征;抽取实体关系的同时考虑了时间属性的识别。 3)提出一种带时间属性的知识库构建方法。设计了带时间属性知识库模型;构建了基于模式匹配和统计学习方法的抽取框架;提出了页面级别和知识库级别的时间属性推理方法。 4)提出了一种未定义实体关系识别算法。利用了语义角色标注算法作为识别特征;提出了基于条件随机场的标注方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 邓擘;樊孝忠;杨立公;;用语义模式提取实体关系的方法[J];计算机工程;2007年10期
2 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
3 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
4 马续补;郭菊娥;;基于GATE的任务信息抽取研究[J];情报杂志;2010年01期
5 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
6 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
7 郑彦宁;化柏林;张新民;;信息检索与信息抽取差异性探析[J];图书情报工作;2007年10期
8 帅训波;马书南;;基于决策树的现代汉语中任职关系抽取研究[J];昆明理工大学学报(理工版);2009年04期
9 孙镇;王惠临;;命名实体识别研究进展综述[J];现代图书情报技术;2010年06期
10 董旻;方曙;;Deep Web信息抽取研究[J];图书情报工作;2007年10期
11 张素香;高国洋;戚银城;;基于条件随机场的中国人名识别方法[J];郑州大学学报(理学版);2009年02期
12 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
13 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
14 林旭东;彭宏;郑启伦;陈绍坚;;基于Web的中文开放式问题回答系统[J];计算机科学;2006年05期
15 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
16 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期
17 胡致涌;胡迎松;;基于领域本体的信息抽取系统的设计与实现[J];价值工程;2010年14期
18 李昕;;信息抽取技术及其在数字图书馆中的应用前景[J];中国科技资源导刊;2008年02期
19 邓擘;郑彦宁;樊孝忠;;信息抽取中实体关系模式的可信度评估[J];情报理论与实践;2009年12期
20 郑彦宁;邓擘;;信息抽取技术在情报学中的应用分析[J];情报理论与实践;2008年05期
中国重要会议论文全文数据库 前10条
1 张苇如;孙乐;韩先培;;基于维基百科和模式聚类的实体关系抽取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
3 李丹;罗智勇;;基于序列模式挖掘的人物关系识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
8 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 石志强;李涛;孙延涛;;基于以太网的宽带社区网络管理系统[A];2003年通信软件技术学术年会论文集[C];2003年
10 姚天昉;;一种用于汉语信息抽取的词汇本体[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
2 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
3 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
4 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
5 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
6 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
7 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
8 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
9 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
10 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘龙;音乐领域全局实体关系抽取研究[D];哈尔滨工业大学;2010年
2 王敏;基于多代理策略的中文实体关系抽取[D];大连理工大学;2011年
3 雷春雅;领域实体关系自动抽取研究[D];昆明理工大学;2011年
4 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
5 王莉峰;领域自适应的中文实体关系抽取研究[D];哈尔滨工业大学;2011年
6 王迪;文本挖掘中的中文实体关系抽取[D];北京邮电大学;2013年
7 毕海滨;基于海量文本数据的实体关系抽取及挖掘[D];山东大学;2012年
8 宁海燕;实体关系自动抽取技术的比较研究[D];哈尔滨工业大学;2010年
9 李庆玲;弱指导中文实体关系抽取方法研究[D];华东师范大学;2012年
10 毛小丽;基于特征向量的实体间语义关系抽取研究[D];重庆大学;2011年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 ;TCC统揽开发生命周期[N];中国计算机报;2001年
6 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
7 董振东;到用户中去[N];中国计算机报;2003年
8 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
9 佚名;零时差管理五法则[N];经理日报;2008年
10 刘君;托县农村经济合作组织是啥样?[N];内蒙古日报(汉);2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978