收藏本站
《西安电子科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于知网语义关系的中文事件信息抽取研究

董萍  
【摘要】: 随着Internet技术的不断发展,网上的文本信息数量成指数级增长,大量非结构化信息的激增使得“信息爆炸与知识饥渴”的矛盾日趋激烈,因此如何自动地使非结构化信息结构化是目前重要的研究课题,事件信息抽取研究正是在这种背景下产生的。作为信息抽取研究的一项高级任务,事件抽取的评测还不理想,尤其是中文事件抽取,基础研究和任务要求之间存在较大矛盾。目前还没有成熟的实用系统出现,相关领域还有待进一步研究。 本文采用模式匹配和机器学习相结合的方法进行中文事件信息抽取研究,事件信息抽取的基本思路按照模式匹配方法的基本过程展开,在进行事件语义角色标注和事件具体信息槽填充过程中运用统计学方法。 本文针对事件信息抽取研究中语义缺失的问题,引入知网语义关系知识资源来识别信息之间的语义关联。中文命名实体识别过程中,利用模式匹配方法结合基于知网的词语相似度计算方法,对事件基本信息(包括事件的时间、地点等)进行了识别,此过程是事件信息抽取的基础工作,在实验评测中取得了较好效果。本文提出利用知网中的事件类概念语义资源对事件进行语义标注,解决了事件信息抽取研究中触发词探测和语义角色标注困难的问题。最后针对具体研究对象——同事件多文本灾难性事件,构建层式框架表示各类信息,进而采用层式有限状态自动机方法进行事件信息的抽取。
【关键词】:事件抽取 信息抽取 知网 语义标注
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1
【目录】:
  • 摘要3-4
  • ABSTRACT4-7
  • 第一章 绪论7-15
  • 1.1 研究背景和意义7-8
  • 1.1.1 研究背景7-8
  • 1.1.2 研究意义8
  • 1.2 信息抽取发展历史及研究现状8-11
  • 1.2.1 信息抽取发展历史8-10
  • 1.2.2 国内外研究现状10-11
  • 1.3 中文事件信息抽取难点11-12
  • 1.3.1 中文信息处理难点11
  • 1.3.2 事件信息抽取难点11-12
  • 1.4 本文研究内容12-13
  • 1.5 论文结构13-15
  • 第二章 中文事件信息抽取15-27
  • 2.1 事件信息抽取关键技术15-18
  • 2.1.1 词法分析15
  • 2.1.2 汉语词性标注15-16
  • 2.1.3 句法分析16-17
  • 2.1.4 语义角色标注17-18
  • 2.2 事件抽取系统构建方法18-21
  • 2.2.1 基于模式匹配法构建事件抽取系统18-20
  • 2.2.2 基于机器学习方法构建事件抽取系统20-21
  • 2.2.3 事件抽取方法比较21
  • 2.3 事件抽取任务描述21-24
  • 2.3.1 信息抽取任务分类21-22
  • 2.3.2 事件与事件抽取22-23
  • 2.3.3 事件-实体关系23-24
  • 2.4 知网语义关系24-26
  • 2.4.1 知网基本概念24-25
  • 2.4.2 基于知网的语义相似度计算25
  • 2.4.3 知网中的事件类概念25-26
  • 2.5 本章小结26-27
  • 第三章 中文事件中的命名实体识别27-35
  • 3.1 命名实体识别过程27-28
  • 3.2 知网语义相似度在NER 中的应用28
  • 3.3 事件基本信息识别28-33
  • 3.3.1 时间信息识别28-31
  • 3.3.2 地点信息识别31-32
  • 3.3.3 机构名及数字信息识别32-33
  • 3.4 本章小结33-35
  • 第四章 中文事件侧面信息抽取35-49
  • 4.1 事件框架构建35-36
  • 4.1.1 框架表示法35
  • 4.1.2 事件框架35-36
  • 4.2 事件触发词识别36-38
  • 4.3 事件语义角色标注38-41
  • 4.3.1 条件随机场38-39
  • 4.3.2 参数估计与特征选择39-40
  • 4.3.3 事件语义角色标注40-41
  • 4.4 基于层式有限状态自动机的事件侧面信息抽取41-46
  • 4.4.1 有限状态自动机41-42
  • 4.4.2 事件的层式结构及侧面信息判定42-44
  • 4.4.3 事件侧面槽值填充44-46
  • 4.5 事件抽取模式获取46-47
  • 4.6 事件信息抽取方法总结47-48
  • 4.7 本章小结48-49
  • 第五章 事件抽取实验及结果分析49-55
  • 5.1 实验语料准备49
  • 5.2 命名实体识别实验49-51
  • 5.2.1 系统逻辑结构设计49-50
  • 5.2.2 系统功能实现50-51
  • 5.3 事件信息抽取实验51-53
  • 5.4 结果分析53-54
  • 5.4.1 评测标准53
  • 5.4.2 实验结果分析53-54
  • 5.5 本章小结54-55
  • 第六章 总结与展望55-57
  • 6.1 本文总结55
  • 6.2 进一步的工作55-57
  • 致谢57-59
  • 参考文献59-63
  • 作者在攻读硕士期间的科研成果63-64

【引证文献】
中国硕士学位论文全文数据库 前2条
1 霍娜;突发事件追踪报道信息抽取的研究[D];山西大学;2012年
2 闫世斗;云计算中认证与隐私保护技术的研究[D];西安电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
2 李向阳,张亚非;基于语义标注的信息抽取[J];解放军理工大学学报(自然科学版);2004年04期
3 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
4 于江德;樊孝忠;庞文博;;事件信息抽取中语义角色标注研究[J];计算机科学;2008年03期
5 胡睿,张冬茉,杜蓬;基于结点语义关系的信息抽取技术[J];计算机工程;2001年04期
6 孔祥勇,张冬茉;一种信息抽取系统中汉语同指消解算法[J];计算机工程;2003年16期
7 姜吉发;一种跨语句汉语事件信息抽取方法[J];计算机工程;2005年02期
8 赵伟,戴新宇,尹存燕,陈家骏;一种规则与统计相结合的汉语分词方法[J];计算机应用研究;2004年03期
9 冯艳;;基于语义标注和最小二乘神经网络的信息抽取[J];科技情报开发与经济;2008年20期
10 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[J];中文信息学报;2006年01期
中国重要会议论文全文数据库 前1条
1 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
3 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
4 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前4条
1 温锐;中文命名实体识别及其关系抽取研究[D];苏州大学;2005年
2 冯礼;基于事件框架的突发事件信息抽取[D];上海交通大学;2008年
3 杨永贵;中文信息抽取关键技术研究与实现[D];北京邮电大学;2008年
4 赵妍妍;中文事件抽取的相关技术研究[D];哈尔滨工业大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
2 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
3 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
4 王丽彩;;现代汉语方式动词和方式格述题化与话题化的条件制约[J];北方论丛;2009年05期
5 李畅;王永良;冯晓洁;聂峰;;作战文书关键信息抽取方法[J];兵工自动化;2011年05期
6 帅志嵩;;中古汉语“完成”语义的表现形式[J];北京广播电视大学学报;2008年01期
7 盛明波;;主谓式双音词的语素语义特征分析[J];北京广播电视大学学报;2009年01期
8 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
9 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
10 胡军伟;秦奕青;张伟;;正则表达式在Web信息抽取中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
中国重要会议论文全文数据库 前10条
1 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 刘晓东;朱翊;柳棽;;基于突发事件的空间信息定位匹配方法研究[A];中国测绘学会九届三次理事会暨2007年“信息化测绘论坛”学术年会论文集[C];2007年
4 王周宏;;符号几何规划的全局解方法[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
5 刘中意;孙文瑜;;大型有界约束最优化问题的子空间有限存储BFGS算法(英文)[A];中国运筹学会第九届学术交流会论文集[C];2008年
6 李在禾;;等式约束优化的一个子空间算法的下降性质(英文)[A];中国运筹学会第九届学术交流会论文集[C];2008年
7 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
8 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
9 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
10 段永强;马亚平;王世文;;基于智能模板的文图互生自动转换的研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
中国博士学位论文全文数据库 前10条
1 曾茂林;富有生命力的教育理论创生机理研究[D];东北师范大学;2010年
2 孙霖;人脸识别中的活体检测技术研究[D];浙江大学;2010年
3 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
4 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
5 彭吉军;《论语》话题结构研究[D];华中科技大学;2011年
6 邱楷;我国地方大学科技创新团队激励机制研究[D];华中科技大学;2011年
7 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
8 任敏;现代汉语非受事动宾式双音复合词研究[D];河北师范大学;2011年
9 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
10 步连增;语言类型学视野下的汉语量词研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
3 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
4 黄立雄;数字出版产业链整合研究[D];湘潭大学;2010年
5 刘晓英;知识关联及其应用研究[D];湘潭大学;2010年
6 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
7 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
8 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
9 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
10 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
2 张锋;孙雪冬;常会友;赵淦森;;两方参与的隐私保护协同过滤推荐研究[J];电子学报;2009年01期
3 邱梅;罗守山;刘文;陈萍;;利用RSA密码体制解决安全多方多数据排序问题[J];电子学报;2009年05期
4 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
5 胡伟;慕德俊;刘航;李美峰;戴冠中;;移动硬盘硬件加密的设计与实现[J];计算机工程与应用;2010年22期
6 于江德;樊孝忠;庞文博;;事件信息抽取中语义角色标注研究[J];计算机科学;2008年03期
7 王尚平;丁如意;张亚玲;王晓峰;解康乐;;一种新的可信计算平台匿名认证方案[J];计算机工程;2009年06期
8 赵泽茂,吴远高,刘凤玉;基于椭圆曲线的具有消息恢复的签名方案[J];计算机工程与科学;2005年02期
9 张锋;常会友;;基于分布式数据的隐私保持协同过滤推荐研究[J];计算机学报;2006年08期
10 刘吉强;赵佳;赵勇;;可信计算中远程自动匿名证明的研究[J];计算机学报;2009年07期
中国博士学位论文全文数据库 前2条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前7条
1 于培;可信计算信任链传递机制的研究与设计[D];西安电子科技大学;2011年
2 杨磊;基于TLPRBAC的政务内网访问控制研究[D];西安电子科技大学;2011年
3 王含章;可信云计算平台模型的研究及其改进[D];中国科学技术大学;2011年
4 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
5 陈玮;基于可信度的RBAC模型及其应用研究[D];南京信息工程大学;2008年
6 赵妍妍;中文事件抽取的相关技术研究[D];哈尔滨工业大学;2007年
7 曹陆林;直接匿名认证方案的研究与设计[D];西安电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
2 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
3 邱广君,张俐,王宝库,朱靖波,邱波;汉语信息处理中的语义关系类型分析[J];东北大学学报;1998年01期
4 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
5 杨成凯;;Fillmore的格语法理论(上)[J];国外语言学;1986年01期
6 顾阳;论元结构理论介绍[J];国外语言学;1994年01期
7 程工;评《题元原型角色与论元选择》[J];国外语言学;1995年03期
8 韩万衡;德国配价论主要学派在基本问题上的观点和分歧[J];国外语言学;1997年03期
9 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
10 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
中国重要会议论文全文数据库 前3条
1 王洋;秦兵;郑实福;;句子相似度计算在FAQ中的应用[A];第一届学生计算语言学研讨会论文集[C];2002年
2 刘怀军;车万翔;刘挺;;中文语义角色标注的特征工程[A];第三届学生计算语言学研讨会论文集[C];2006年
3 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前3条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
3 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前6条
1 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
2 王昀;金融领域中汉语时间信息抽取的研究[D];清华大学;2004年
3 李威;基于向量空间的文本自动分类系统的研究和实现[D];兰州理工大学;2005年
4 邹娟;面向中文文本的特征值提取[D];湘潭大学;2005年
5 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年
6 陈静;基于本体的信息抽取研究[D];苏州大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 尤昉,李涓子,王作英;基于《知网》的中文信息结构抽取研究[J];计算机工程与应用;2002年18期
2 吴克忠;;中文信息技术的创新与发展(下)[J];办公自动化;2003年07期
3 ;《中文信息学报》征稿简则[J];中文信息学报;2011年02期
4 ;《中文信息学报》征稿简则[J];中文信息学报;2011年06期
5 ;《中文信息学报》征稿简则[J];中文信息学报;2012年01期
6 ;《中文信息学报》征稿简则[J];中文信息学报;2013年04期
7 ;《中文信息》已于十月创刊[J];微计算机应用;1984年04期
8 阎久佐;;我校首创“计算机中文信息库”[J];北京师范大学学报(自然科学版);1985年04期
9 本刊编辑部;纪念《中文信息学报》创刊五周年[J];中文信息学报;1991年04期
10 曹来发;;中文电脑交流会、中文信息全国学术交流会在蓉召开[J];炼油化工自动化;1991年06期
中国重要会议论文全文数据库 前7条
1 刘春荣;;我国当务之急是解决中文书写方式的根本变革[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
2 陈晓鸥;;从中文电子出版到中文电子传播[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
5 ;中文信息的智能处理[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
6 宋彦;黄昌宁;揭春雨;;中文CCG树库的构建[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 陈儒;张宇;刘挺;;面向网络实时数据流的中文信息多模式模糊匹配[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
中国重要报纸全文数据库 前10条
1 本报记者 陈方;中文信息 期待精品[N];光明日报;2000年
2 凌飞;抵制网络经济时代的话语霸权[N];社会科学报;2000年
3 本报驻美国特约记者 王云 驻法国特约记者 苑大喜;欧美博物馆力推中文服务[N];中国文化报;2013年
4 陈金岭;中文短消息让手机和呼机合二为一[N];光明日报;2000年
5 肖薇;中文之星重组亮出杀手锏[N];中国证券报;2000年
6 侯雪林;自主创新 迎接拼字文明时代到来[N];大众科技报;2007年
7 安徽 张来东;在JAVA开发中的中文处理问题及解决办法[N];中国计算机报;2001年
8 记者李行;海峡两岸共商中文信息技术合作大计[N];新疆日报(汉);2009年
9 罗敏;《中国C网中文信息应用网络系统》近日通过技术成果鉴定[N];中国高新技术产业导报;2001年
10 晓 飞;选购手机的小诀窍[N];大众科技报;2003年
中国博士学位论文全文数据库 前5条
1 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
2 丁凯;基于增量学习的中文手写书写者自适应技术研究[D];华南理工大学;2011年
3 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
4 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
5 张紫琼;在线中文评论情感分类问题研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 黄李伟;中文零指代消解研究[D];苏州大学;2010年
2 张小欢;中文分词系统的设计和实现[D];电子科技大学;2010年
3 高俊伟;中文指代消解关键问题研究[D];苏州大学;2012年
4 杨永贵;中文信息抽取关键技术研究与实现[D];北京邮电大学;2008年
5 翟晓华;中文信息的语义数据挖掘技术研究[D];湖南大学;2008年
6 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
7 程越;基于统计的中文姓名识别的研究与实现[D];吉林大学;2005年
8 侯立斌;中文事件抽取与缺失角色填充的研究[D];苏州大学;2012年
9 余珍芝;中文网络产品评论的情感分析关键技术研究[D];杭州电子科技大学;2011年
10 刘洋;面向中文的压缩算法及其在交通应急文传系统中的应用研究[D];武汉理工大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026