收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

信息抽取中实体关系识别研究

张奇  
【摘要】: 信息抽取研究随着互联网的发展变得越来越重要,一个典型的信息抽取任务是从无结构化或者半结构化的文本中,通过信息抽取技术,提取人们所感兴趣的内容,并以结构化的形式,例如关系数据库形式或者XML形式保存下来。信息抽取技术可以应用于多个领域,比如学术搜索、商品搜索、文本挖掘、知识库构建等等。由于信息抽取技术的广泛应用,信息抽取算法的研究越来越成为当前信息检索领域的热点。 信息抽取任务包含了多个子任务,比如事件抽取和共指关系确定等等。但是从应用的广泛程度以及研究的深入程度来看,信息抽取任务包含了两个主要的子任务:命名实体识别任务和实体关系抽取任务。命名实体识别子任务的目标主要是识别文本中包含的各种名实体,比如:人名、地名、公司组织名和时间短语等等。而实体关系抽取子任务的目标主要是发现和识别隐含在实体与实体之间的关系。因此从广义上来说,实体关系抽取包含了命名实体识别任务。 目前信息抽取研究已经取得了很多的成果,也越来越走入人们的日常生活,比如像谷歌的本地搜索等等。但是信息抽取技术仍然面临着很多困难。成熟的信息抽取系统往往采用模式匹配的方法,因而只能局限于某些特定的实体类型和实体关系类型或者只能局限于某些特定的领域。而采用统计学习的方法的系统,往往局限于对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果往往不尽如人意。 本论文对信息抽取工作的已有研究成果进行了总结,分析了信息抽取任务的关键问题,并在命名实体识别、实体关系抽取以及实体关系时间属性抽取等方面进行了研究,提出了相应的解决方法。 论文首先介绍了信息抽取系统的发展历史和相应的研究成果。分别介绍了命名实体识别和实体关系抽取这两个子任务的关键技术、相关研究以及存在的问题。 边界分割是中文命名实体识别算法中的一个关键问题。论文提出了一种基于网页结构特征的候选实体生成算法,并将中文实体识别问题转化为一个分类问题。同时论文提出了基于DOM-Tree的实体关联算法,根据树距离就近原则和相关信息不冲突原则,提高了实体之间关联的准确度。 深层语义特征的利用是实体关系抽取中的一个研究热点。论文提出了一种基于链接语法的实体关系抽取方法,该算法根据词与词之间的依赖语法关系,定义了深层的语法特征,并利用监督学习的方法加以识别,从而提高了抽取的准确度。同时该算法还考虑了实体关系的时间属性抽取,进一步完善了实体关系含义的完整性。 知识库的建设是信息抽取系统的主要应用之一。本论文提出了一种带时间属性的知识库的创建方法。首先给出了带时间属性知识库的表示模型以及时间属性的演算法则,并针对半结构化数据和无结构化数据分别设计了相应的抽取算法。在缺乏时间属性的情况下,论文采用了基于页面级别的时间属性推理方法和基于知识库级别的时间属性推理方法,提高了算法的覆盖率。 最后论文还关注了未定义类型实体关系抽取方法,部分解决了大部分信息抽取系统只能处理预定义关系类型的瓶颈。算法采用了基于语义角色标注的关系类型动态识别方法,并采用条件随机场作为标注工具,将未定义类型实体关系识别问题通过标注的方法解决。论文的主要贡献可以总结为如下几个方面: 1)提出一种基于网页结构的中文命名实体识别和关联算法。设计了基于网页结构特征的候选实体生成技术;提出了基于DOM-Tree的实体关联原则:树距离就近原则和相关信息不冲突原则。 2)提出一种基于深层语义特征的带时间属性实体关系识别算法。采用了词与词之间的依赖语法关系作为识别特征;抽取实体关系的同时考虑了时间属性的识别。 3)提出一种带时间属性的知识库构建方法。设计了带时间属性知识库模型;构建了基于模式匹配和统计学习方法的抽取框架;提出了页面级别和知识库级别的时间属性推理方法。 4)提出了一种未定义实体关系识别算法。利用了语义角色标注算法作为识别特征;提出了基于条件随机场的标注方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
2 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
3 周法国;王映龙;杨炳儒;宋泽锋;;非结构化信息抽取关键技术研究探讨[J];计算机工程与应用;2009年14期
4 邓擘;郑彦宁;樊孝忠;;信息抽取中实体关系模式的可信度评估[J];情报理论与实践;2009年12期
5 郑彦宁;邓擘;;信息抽取技术在情报学中的应用分析[J];情报理论与实践;2008年05期
6 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
7 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
8 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
9 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
10 张春明;;Web挖掘技术研究[J];廊坊师范学院学报(自然科学版);2008年05期
11 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期
12 邹荣;;对垂直搜索技术的分析[J];福建电脑;2009年02期
13 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期
14 于薇;;包装器的自动生成方法介绍[J];才智;2009年28期
15 张涛;胡正华;夏明星;;远洋运输业业务邮件信息抽取系统的设计及实现[J];电脑知识与技术;2010年01期
16 朱青;吕晓旭;;基于机器学习的HTML标题抽取[J];微计算机信息;2010年09期
17 祝伟华;卢熠;刘斌斌;;基于HMM的Web信息抽取算法的研究与应用[J];计算机科学;2010年02期
18 胡致涌;胡迎松;;基于领域本体的信息抽取系统的设计与实现[J];价值工程;2010年14期
19 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
20 丁君军;郑彦宁;化柏林;;国内外属性抽取研究综述[J];情报科学;2011年05期
中国重要会议论文全文数据库 前10条
1 张苇如;孙乐;韩先培;;基于维基百科和模式聚类的实体关系抽取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
3 李丹;罗智勇;;基于序列模式挖掘的人物关系识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 张巍;游宏梁;张吉才;;一种基于加权投票的术语自动识别方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
2 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
3 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
4 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
6 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
7 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
8 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
9 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
10 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
4 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
5 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
6 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
7 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
8 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
9 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
10 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
6 董振东;到用户中去[N];中国计算机报;2003年
7 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
8 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
9 ;TCC统揽开发生命周期[N];中国计算机报;2001年
10 马志彦;悄然而至的EIP[N];中国计算机报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978