收藏本站
《中国科学技术大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

信息抽取中实体关系识别研究

张奇  
【摘要】: 信息抽取研究随着互联网的发展变得越来越重要,一个典型的信息抽取任务是从无结构化或者半结构化的文本中,通过信息抽取技术,提取人们所感兴趣的内容,并以结构化的形式,例如关系数据库形式或者XML形式保存下来。信息抽取技术可以应用于多个领域,比如学术搜索、商品搜索、文本挖掘、知识库构建等等。由于信息抽取技术的广泛应用,信息抽取算法的研究越来越成为当前信息检索领域的热点。 信息抽取任务包含了多个子任务,比如事件抽取和共指关系确定等等。但是从应用的广泛程度以及研究的深入程度来看,信息抽取任务包含了两个主要的子任务:命名实体识别任务和实体关系抽取任务。命名实体识别子任务的目标主要是识别文本中包含的各种名实体,比如:人名、地名、公司组织名和时间短语等等。而实体关系抽取子任务的目标主要是发现和识别隐含在实体与实体之间的关系。因此从广义上来说,实体关系抽取包含了命名实体识别任务。 目前信息抽取研究已经取得了很多的成果,也越来越走入人们的日常生活,比如像谷歌的本地搜索等等。但是信息抽取技术仍然面临着很多困难。成熟的信息抽取系统往往采用模式匹配的方法,因而只能局限于某些特定的实体类型和实体关系类型或者只能局限于某些特定的领域。而采用统计学习的方法的系统,往往局限于对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果往往不尽如人意。 本论文对信息抽取工作的已有研究成果进行了总结,分析了信息抽取任务的关键问题,并在命名实体识别、实体关系抽取以及实体关系时间属性抽取等方面进行了研究,提出了相应的解决方法。 论文首先介绍了信息抽取系统的发展历史和相应的研究成果。分别介绍了命名实体识别和实体关系抽取这两个子任务的关键技术、相关研究以及存在的问题。 边界分割是中文命名实体识别算法中的一个关键问题。论文提出了一种基于网页结构特征的候选实体生成算法,并将中文实体识别问题转化为一个分类问题。同时论文提出了基于DOM-Tree的实体关联算法,根据树距离就近原则和相关信息不冲突原则,提高了实体之间关联的准确度。 深层语义特征的利用是实体关系抽取中的一个研究热点。论文提出了一种基于链接语法的实体关系抽取方法,该算法根据词与词之间的依赖语法关系,定义了深层的语法特征,并利用监督学习的方法加以识别,从而提高了抽取的准确度。同时该算法还考虑了实体关系的时间属性抽取,进一步完善了实体关系含义的完整性。 知识库的建设是信息抽取系统的主要应用之一。本论文提出了一种带时间属性的知识库的创建方法。首先给出了带时间属性知识库的表示模型以及时间属性的演算法则,并针对半结构化数据和无结构化数据分别设计了相应的抽取算法。在缺乏时间属性的情况下,论文采用了基于页面级别的时间属性推理方法和基于知识库级别的时间属性推理方法,提高了算法的覆盖率。 最后论文还关注了未定义类型实体关系抽取方法,部分解决了大部分信息抽取系统只能处理预定义关系类型的瓶颈。算法采用了基于语义角色标注的关系类型动态识别方法,并采用条件随机场作为标注工具,将未定义类型实体关系识别问题通过标注的方法解决。论文的主要贡献可以总结为如下几个方面: 1)提出一种基于网页结构的中文命名实体识别和关联算法。设计了基于网页结构特征的候选实体生成技术;提出了基于DOM-Tree的实体关联原则:树距离就近原则和相关信息不冲突原则。 2)提出一种基于深层语义特征的带时间属性实体关系识别算法。采用了词与词之间的依赖语法关系作为识别特征;抽取实体关系的同时考虑了时间属性的识别。 3)提出一种带时间属性的知识库构建方法。设计了带时间属性知识库模型;构建了基于模式匹配和统计学习方法的抽取框架;提出了页面级别和知识库级别的时间属性推理方法。 4)提出了一种未定义实体关系识别算法。利用了语义角色标注算法作为识别特征;提出了基于条件随机场的标注方法。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前1条
1 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
【共引文献】
中国期刊全文数据库 前8条
1 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
2 李向阳;戴江山;张亚非;;一种Web信息抽取规则的优化方法[J];兰州理工大学学报;2006年01期
3 李永平,金莉;基于填充标记的自适应Web信息提取[J];华中科技大学学报(自然科学版);2003年11期
4 杜永萍;黄萱菁;吴立德;;模式学习在QA系统中的有效实现[J];计算机研究与发展;2006年03期
5 梁红兵,杨铭魁,黄晓;基于反馈规则学习的医学文献主题自动标引方法[J];计算机工程;2003年11期
6 钟敏娟;郝谦;刘云中;;基于多模板隐马尔可夫模型的文本信息抽取算法[J];计算机工程;2006年02期
7 李向阳,张亚非;一种军用文图自动转换方案[J];情报指挥控制系统与仿真技术;2004年05期
8 郭太飞;何洁月;;归纳学习XPATH Web信息提取规则[J];计算机技术与发展;2007年03期
中国重要会议论文全文数据库 前10条
1 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
3 LI Xiang-yang , ZHANG Ya-fei , LU Jian-jiang, XU Bao-wen Institute of Communications Engineering, People's Liberation Army University of Science and Technology, Nanjing 210007, Jiangsu, China; Department of Computer Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
4 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 LI Xiang-yang~1, ZHANG Ya-fei~1, LU Jian-jiang~(1,2), XU Bao-wen~2 1. Institute of Communications Engineering, People's Liberation Army University of Science and Techndogy. Nanjing 210007, Jiangsu, China; 2. Department of Computer Science and Engineering. Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
10 Suxiang Zhang,Juan Wen ,Ying Qin ,Xiaojie Wang ,Yixin Zhong School of Information Engineering, Beijing University of Posts and Telecommunications, Beijing, 100876, P. R. China Department of Electronic and Communication Engineering, North China Electric Power University, Baoding, 071003, P. R. China;The Research and Application about the Information Extraction in Chinese Domain[A];第八届国际信号处理国际会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 张国江;软计算方法和数据挖掘理论在电力系统负荷预测中的应用[D];浙江大学;2002年
2 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
3 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
4 郑桂华;基于网络的语文校本课程研究与实践[D];华东师范大学;2004年
5 邹涛;智能网络入侵检测系统关键技术研究[D];国防科学技术大学;2004年
6 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
7 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
8 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
9 田新广;基于主机的入侵检测方法研究[D];国防科学技术大学;2005年
10 徐凌宇;基于信源选择与序列提取的动态特征级信息融合模型及算法的研究[D];东北大学;2002年
中国硕士学位论文全文数据库 前10条
1 吴小明;考虑气象条件下的电力系统短期负荷预测研究[D];浙江大学;2003年
2 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
3 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
4 赵桂敏;基于综合集成的人脸识别[D];中南大学;2004年
5 刘云中;基于隐马尔可夫模型的文本信息抽取算法研究[D];湖南大学;2004年
6 吕行;基于XML的异构数据源集成系统研究与应用[D];河海大学;2004年
7 刘文瑶;多分类器系统中的组合方法及差异性度量研究[D];浙江大学;2005年
8 许少华;数据挖掘技术在包装企业管理中的应用探讨[D];西安理工大学;2005年
9 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
10 雷庆;识别和抽取Web中的关系信息及其出现模式[D];华侨大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 何婷婷;徐超;李晶;赵君喆;;基于种子自扩展的命名实体关系抽取方法[J];计算机工程;2006年21期
2 刘伟权,王明会,钟义信;建立现代汉语依存关系的层次体系[J];中文信息学报;1996年02期
3 李向宏,王丁,黄成哲,雷国华;自然语言句法分析研究现状和发展趋势[J];微处理机;2003年02期
4 夏天,樊孝忠,刘林;利用JNI实现ICTCLAS系统的Java调用[J];计算机应用;2004年S2期
5 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期
6 李昕;李丽萍;常革新;;基于XML的文档的动态产生[J];辽宁工程技术大学学报;2006年01期
7 车竞;现代汉语比较句论略[J];湖北师范学院学报(哲学社会科学版);2005年03期
8 俞士汶,段慧明,朱学锋,张化瑞;综合型语言知识库的建设与利用[J];中文信息学报;2004年05期
9 刘胥影;吴建鑫;周志华;;一种基于级联模型的类别不平衡数据分类方法[J];南京大学学报(自然科学版);2006年02期
10 陈斌;我国科技期刊国际化的现状、问题和建议[J];山东大学学报(哲学社会科学版);2005年05期
中国重要会议论文全文数据库 前1条
1 ;2006北京地区高校研究生学术交流会——通信与信息技术会议领导机构名单[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前10条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
2 李杰;隐马尔可夫模型的研究及其在图像识别中的应用[D];清华大学;2004年
3 许建潮;Web挖掘中若干问题的研究[D];吉林大学;2005年
4 王军;模糊小波网络及其在永磁同步电机控制中的应用[D];西南交通大学;2005年
5 郑军;小波理论在系统建模与控制中的若干应用研究[D];浙江大学;2005年
6 张晓宇;非线性系统智能自适应滑模控制及其应用研究[D];浙江大学;2006年
7 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
8 黄宜军;小波神经网络及其在飞控系统中的应用研究[D];西北工业大学;2006年
9 俞阿龙;基于仿生算法的机器人腕力传感器动态特性及相关技术研究[D];东南大学;2005年
10 侯霞;小波神经网络若干关键问题研究[D];南京航空航天大学;2006年
中国硕士学位论文全文数据库 前10条
1 张波;PDF文档语义信息抽取研究[D];河北大学;2004年
2 陈刚;用Xpath和XSLT查询XML文档[D];四川大学;2005年
3 丁晓剑;对大信息量XML文档查询方法的研究[D];西安理工大学;2006年
4 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
5 赵长领;基于XML的中间文档信息提取技术研究[D];山东大学;2005年
6 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
7 夏松竹;基于XML的数据格式转换方法研究[D];哈尔滨工程大学;2006年
8 张梅;基于语义的关系模式向XML模式转换方法研究[D];南京师范大学;2006年
9 田叶;基于XML文档的语义检索[D];华北电力大学(河北);2007年
10 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年
【二级参考文献】
中国期刊全文数据库 前4条
1 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
2 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
3 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
4 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
【相似文献】
中国期刊全文数据库 前10条
1 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
2 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
3 周法国;王映龙;杨炳儒;宋泽锋;;非结构化信息抽取关键技术研究探讨[J];计算机工程与应用;2009年14期
4 邓擘;郑彦宁;樊孝忠;;信息抽取中实体关系模式的可信度评估[J];情报理论与实践;2009年12期
5 郑彦宁;邓擘;;信息抽取技术在情报学中的应用分析[J];情报理论与实践;2008年05期
6 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
7 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
8 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
9 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
10 张春明;;Web挖掘技术研究[J];廊坊师范学院学报(自然科学版);2008年05期
中国重要会议论文全文数据库 前10条
1 张苇如;孙乐;韩先培;;基于维基百科和模式聚类的实体关系抽取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
3 李丹;罗智勇;;基于序列模式挖掘的人物关系识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 张巍;游宏梁;张吉才;;一种基于加权投票的术语自动识别方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
6 董振东;到用户中去[N];中国计算机报;2003年
7 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
8 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
9 ;TCC统揽开发生命周期[N];中国计算机报;2001年
10 马志彦;悄然而至的EIP[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
2 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
3 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
4 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
6 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
7 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
8 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
9 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
10 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
4 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
5 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
6 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
7 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
8 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
9 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
10 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026