收藏本站
《苏州大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

中文事件抽取与缺失角色填充的研究

侯立斌  
【摘要】:事件抽取(Event Extraction)是信息抽取(Information Extraction,简称IE)的难点之一,它研究的内容是如何从文本中抽取特定类别的事件及其角色。目前,绝大多数的研究对象是英文,对中文事件抽取的研究还处于起步阶段。 本文在深入研究现有中文事件抽取方法的基础上,提出了新的方法并挖掘出更有效的特征。另外,通过对事件抽取结果的分析发现,完整的事件信息往往分布在文档的各个部分。针对目前事件抽取技术局限在当前句子,从而造成大量事件论元角色缺失的现象,提出了基于跨事件的缺失事件角色填充方法。本文研究内容主要包括: 1.针对中文特点,提出了采用CRF(Conditional Random Fields)模型基于字的触发词探测方法,解决了中文自动分词与中文事件触发词边界不一致的问题。此外,在事件类型识别阶段,首次引入跨事件推理,使得特征选取由局部扩展到全局。在ACE2005中文语料上的实验表明,本文提出的两种方法既可以有效提高触发词识别的准确率,又有助于提高事件类型识别性能,F1值分别比现有系统提高5.5和2.5个百分点。 2.研究了基于CRF模型的事件论元角色抽取任务中多种特征的表现,并将其归纳为词法、语义、依存特征、句法和相对位置等五大类别。考察了各种特征及特征之间组合对系统性能的影响,并重点引入了语义角色标注特征。实验表明,条件随机场模型在事件论元角色抽取方面有较好的表现,且新提出的语义角色特征具有很好的指示作用。F1较现有系统提高5.1个百分点。 3.对ACE2005中文语料进行了后期标注,并通过对缺失事件角色的分析和统计,提出了一个基于机器学习的缺失事件角色填充方法。该方法把缺失事件角色填充分为识别和分类两个部分,识别阶段用于判定缺失角色是否可被填充,分类阶段用于从其它事件描述中选择合适的角色(实体)对可被填充的缺失角色进行填充。实验表明,两个阶段的F1值分别达到72.97和74.68。
【关键词】:事件抽取 角色填充 跨事件推理 条件随机场 语义角色标注
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【目录】:
  • 中文摘要4-5
  • Abstract5-10
  • 第1章 绪论10-16
  • 1.1 研究背景和意义10-12
  • 1.2 研究现状12-14
  • 1.2.1 事件信息抽取12-14
  • 1.2.2 缺失事件角色填充研究14
  • 1.3 研究内容14-15
  • 1.4 组织结构15-16
  • 第2章 事件抽取相关知识16-30
  • 2.1 中文事件抽取概述16-20
  • 2.1.1 中文事件抽取任务16-19
  • 2.1.2 中文事件抽取的支撑技术19-20
  • 2.2 缺失事件角色填充方法概述20-22
  • 2.2.1 缺失事件角色填充方法20-22
  • 2.2.2 缺失事件角色填充方法支撑技术22
  • 2.3 语料资源22-24
  • 2.4 机器学习模型24-28
  • 2.4.1 条件随机场模型24-26
  • 2.4.2 支持向量机分类器26-28
  • 2.5 实验方法及评价标准28-29
  • 2.5.1 k倍交叉验证法28
  • 2.5.2 性能评测指标28-29
  • 2.6 本章小结29-30
  • 第3章 基于CRF和跨事件推理的事件识别研究30-40
  • 3.1 相关工作30
  • 3.2 研究动机30-32
  • 3.3 解决思路32-36
  • 3.3.1 基于字的触发词检测32-34
  • 3.3.2 事件类型识别34-36
  • 3.4 实验及结果分析36-39
  • 3.4.1 实验设置36-37
  • 3.4.2 触发词检测37
  • 3.4.3 事件类型识别37-38
  • 3.4.4 评测中存在的问题38-39
  • 3.5 本章小结39-40
  • 第4章 中文事件论元角色抽取方法40-49
  • 4.1 相关工作40
  • 4.2 研究动机40-42
  • 4.2.1 语义角色标注40-41
  • 4.2.2 问题描述41-42
  • 4.3 解决思路42-45
  • 4.3.1 基于CRF的系统实现42-43
  • 4.3.2 特征选择43-44
  • 4.3.3 SRL特征提取算法44-45
  • 4.4 实验结果与分析45-48
  • 4.4.1 实验设置45-46
  • 4.4.2 实验结果与分析46-48
  • 4.4.3 实验中存在的问题48
  • 4.5 本章小结48-49
  • 第5章 中文缺失事件角色填充方法研究49-61
  • 5.1 引言49-50
  • 5.2 相关工作50-51
  • 5.3 缺失事件角色填充方法及系统框架51-53
  • 5.4 语料标注53-54
  • 5.5 解决思路54-57
  • 5.5.1 缺失角色填充识别54-55
  • 5.5.2 缺失角色填充分类55-57
  • 5.6 实验结果与分析57-59
  • 5.6.1 实验设置57
  • 5.6.2 缺失角色填充识别57-58
  • 5.6.3 缺失角色填充分类58
  • 5.6.4 特征贡献度分析58-59
  • 5.6.5 评测中存在的问题59
  • 5.7 本章小结59-61
  • 第6章 总结与展望61-63
  • 6.1 研究工作总结61
  • 6.2 下一步工作设想61-63
  • 参考文献63-69
  • 攻读硕士学位期间公开发表的论文69
  • 攻读硕士学位期间参与的项目69-70
  • 致谢70

【引证文献】
中国博士学位论文全文数据库 前4条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
2 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
3 孔芳;指代消解关键问题研究[D];苏州大学;2009年
4 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
【参考文献】
中国期刊全文数据库 前7条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
3 许荣华;吴刚;李培峰;朱巧明;;基于指代消解的中文事件融合方法[J];计算机应用;2009年08期
4 吴平博,陈群秀,马亮;基于事件框架的事件相关文档的智能检索研究[J];中文信息学报;2003年06期
5 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[J];中文信息学报;2006年01期
6 梁晗;陈群秀;吴平博;;基于事件框架的信息抽取系统[J];中文信息学报;2006年02期
7 赵妍妍;秦兵;车万翔;刘挺;;中文事件抽取技术研究[J];中文信息学报;2008年01期
中国博士学位论文全文数据库 前4条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
2 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
3 孔芳;指代消解关键问题研究[D];苏州大学;2009年
4 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
2 云晓燕;王春英;;基于最大树法的多文档文摘子主题划分[J];辽宁科技大学学报;2009年06期
3 王逢鑫;论象声词——英汉象声词语义比较[J];北京大学学报(英语语言文学专刊);1992年02期
4 王逢鑫;论感叹词——英汉感叹词语义比较[J];北京大学学报(外国语言文学专刊);1999年S1期
5 吴娜炯;;格语法在主观题自动阅卷中的应用[J];办公自动化;2010年08期
6 李畅;王永良;冯晓洁;聂峰;;作战文书关键信息抽取方法[J];兵工自动化;2011年05期
7 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
8 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
9 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
10 彭宣维;认知发展、隐喻映射与词义范畴的延伸——现代汉语词汇系统形成的认知机制[J];北京师范大学学报(社会科学版);2004年03期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 甘灿;孙星明;刘玉玲;向凌云;;一种改进的基于同义词替换的中文文本信息隐藏方法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
5 卢伟清;苏新春;;词义开放处理平台的研究和实现[A];第六届汉语词汇语义学研讨会论文集[C];2005年
6 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
8 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
9 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
10 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
中国博士学位论文全文数据库 前10条
1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
4 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
5 徐曼曼;何休《春秋公羊傅解诂》词彙训诂研究[D];浙江大学;2011年
6 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
7 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
8 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
9 肖珊;基于概念语义的言说动词系统研究[D];武汉大学;2011年
10 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
2 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
3 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
4 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
5 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
6 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
7 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
8 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
9 柴艳丽;复音同义词检索与分析系统的设计与研究[D];广西民族大学;2010年
10 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
2 钱伟,郭以昆,周雅倩,吴立德;基于最大熵模型的英文名词短语指代消解[J];计算机研究与发展;2003年09期
3 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
4 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
5 吴芬芬;刘磊;肖宪;;一种启发式的信息抽取算法[J];吉林大学学报(理学版);2007年01期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 贺智平;徐学洲;李爱玲;;一种基于信息熵的Web页面主题信息抽取方法[J];计算机工程与应用;2007年04期
8 胡睿,张冬茉,杜蓬;基于结点语义关系的信息抽取技术[J];计算机工程;2001年04期
9 孔祥勇,张冬茉;一种信息抽取系统中汉语同指消解算法[J];计算机工程;2003年16期
10 姜吉发;一种跨语句汉语事件信息抽取方法[J];计算机工程;2005年02期
中国重要会议论文全文数据库 前1条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前2条
1 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年
2 陈静;基于本体的信息抽取研究[D];苏州大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 尤昉,李涓子,王作英;基于《知网》的中文信息结构抽取研究[J];计算机工程与应用;2002年18期
2 吴克忠;;中文信息技术的创新与发展(下)[J];办公自动化;2003年07期
3 ;《中文信息学报》征稿简则[J];中文信息学报;2011年02期
4 ;《中文信息学报》征稿简则[J];中文信息学报;2011年06期
5 ;《中文信息学报》征稿简则[J];中文信息学报;2012年01期
6 ;《中文信息学报》征稿简则[J];中文信息学报;2013年04期
7 ;《中文信息》已于十月创刊[J];微计算机应用;1984年04期
8 阎久佐;;我校首创“计算机中文信息库”[J];北京师范大学学报(自然科学版);1985年04期
9 本刊编辑部;纪念《中文信息学报》创刊五周年[J];中文信息学报;1991年04期
10 曹来发;;中文电脑交流会、中文信息全国学术交流会在蓉召开[J];炼油化工自动化;1991年06期
中国重要会议论文全文数据库 前7条
1 刘春荣;;我国当务之急是解决中文书写方式的根本变革[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
2 陈晓鸥;;从中文电子出版到中文电子传播[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
5 ;中文信息的智能处理[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
6 宋彦;黄昌宁;揭春雨;;中文CCG树库的构建[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 陈儒;张宇;刘挺;;面向网络实时数据流的中文信息多模式模糊匹配[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
中国重要报纸全文数据库 前10条
1 本报记者 陈方;中文信息 期待精品[N];光明日报;2000年
2 凌飞;抵制网络经济时代的话语霸权[N];社会科学报;2000年
3 本报驻美国特约记者 王云 驻法国特约记者 苑大喜;欧美博物馆力推中文服务[N];中国文化报;2013年
4 肖薇;中文之星重组亮出杀手锏[N];中国证券报;2000年
5 陈金岭;中文短消息让手机和呼机合二为一[N];光明日报;2000年
6 侯雪林;自主创新 迎接拼字文明时代到来[N];大众科技报;2007年
7 安徽 张来东;在JAVA开发中的中文处理问题及解决办法[N];中国计算机报;2001年
8 记者李行;海峡两岸共商中文信息技术合作大计[N];新疆日报(汉);2009年
9 罗敏;《中国C网中文信息应用网络系统》近日通过技术成果鉴定[N];中国高新技术产业导报;2001年
10 晓 飞;选购手机的小诀窍[N];大众科技报;2003年
中国博士学位论文全文数据库 前5条
1 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
2 丁凯;基于增量学习的中文手写书写者自适应技术研究[D];华南理工大学;2011年
3 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
4 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
5 张紫琼;在线中文评论情感分类问题研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 黄李伟;中文零指代消解研究[D];苏州大学;2010年
2 高俊伟;中文指代消解关键问题研究[D];苏州大学;2012年
3 张小欢;中文分词系统的设计和实现[D];电子科技大学;2010年
4 杨永贵;中文信息抽取关键技术研究与实现[D];北京邮电大学;2008年
5 程越;基于统计的中文姓名识别的研究与实现[D];吉林大学;2005年
6 刘洋;面向中文的压缩算法及其在交通应急文传系统中的应用研究[D];武汉理工大学;2013年
7 翟晓华;中文信息的语义数据挖掘技术研究[D];湖南大学;2008年
8 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
9 侯立斌;中文事件抽取与缺失角色填充的研究[D];苏州大学;2012年
10 余珍芝;中文网络产品评论的情感分析关键技术研究[D];杭州电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026