收藏本站
《苏州大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于框架的事件抽取关键技术研究

金璐钰  
【摘要】: 随着计算机的普及与互联网的高速发展,越来越多的信息充斥在网络中,如何将大量无序的信息准确及时的提取、整理并组织成便于检索的形式,是急待解决的问题,信息抽取技术就是围绕这个目的展开的。其中事件抽取是信息抽取的重要组成部分,事件抽取就是从非结构化文档中抽取出用户感兴趣的事件,同时用结构化形式描述,供用户查询及进一步分析。 本文以自然灾害类事件作为实验对象,研究该类事件领域的信息特点,实现自然灾害类事件信息的抽取与合成。本文首先对实验语料进行预处理,去除文档的高频词和低频词,再利用文档聚类的方法实现了同一类事件侧面特征词的收集,经过一定的人工处理,最终建立了自然灾害事件的框架结构,通过框架结构指导事件的抽取。在事件信息的具体抽取过程中,先建立相关事件的抽取模板,即一组抽取规则,使用这些规则对测试语料进行模板匹配与信息抽取。实现了对自然灾害类事件的事件发生时间、事件发生地点、事件伤亡结果等侧面信息的抽取,并根据时空的一致性原则对同一事件进行了合并。 实验结果表明,本文提出的基于框架的事件抽取方法是切实可行的,对于自然灾害事件的信息抽取得到了较为理想的测试结果。
【关键词】:事件抽取 信息抽取 框架 模板
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 第一章 绪论8-17
  • 1.1 研究背景与意义8-9
  • 1.2 研究现状9-12
  • 1.3 事件抽取概述12-15
  • 1.3.1 相关概念定义12-13
  • 1.3.2 事件抽取系统的结构及流程13-14
  • 1.3.3 事件抽取的评价14-15
  • 1.4 课题主要研究内容15
  • 1.5 本文的篇章结构15-17
  • 第二章 文本预处理和特征抽取技术17-26
  • 2.1 实验语料搜集及预处理17
  • 2.2 自然灾害事件新闻报道的特征17-20
  • 2.2.1 形式方面17-19
  • 2.2.2 内容方面19-20
  • 2.3 文本特征的提取20-21
  • 2.4 文档相似度计算21-23
  • 2.5 文档聚类23-25
  • 2.5.1 聚类的意义23
  • 2.5.2 常用聚类算法的介绍23-24
  • 2.5.3 本文的聚类算法24-25
  • 2.6 本章小结25-26
  • 第三章 命名实体的识别26-35
  • 3.1 引言26-27
  • 3.2 命名实体识别27-28
  • 3.3 命名实体识别方法28-32
  • 3.3.1 方法思想28-29
  • 3.3.2 方法步骤29-30
  • 3.3.3 垃圾串分类器及特征选择30
  • 3.3.4 实体抽取30-32
  • 3.4 实验与结论32-33
  • 3.4.1 语料、工具与结果判定32
  • 3.4.2 碎片序列获取32
  • 3.4.3 垃圾串分类器训练32-33
  • 3.4.4 实体抽取33
  • 3.5 本章小结33-35
  • 第四章 基于框架的事件抽取与集成35-53
  • 4.1 引言35
  • 4.2 思想技术路线35-36
  • 4.2.1 基本概念35-36
  • 4.2.2 解决问题思路36
  • 4.3 事件框架的建立36-38
  • 4.3.1 事件框架体系36-37
  • 4.3.2 事件框架的产生37-38
  • 4.4 基于框架的事件的抽取38-45
  • 4.4.1 规则集的收集39-40
  • 4.4.2 时空短语的识别与规范化40-44
  • 4.4.3 指示代词的简单消解44-45
  • 4.5 基于时空分析的事件合并45-48
  • 4.5.1 对同一事件进行合并45-46
  • 4.5.2 事件合并的实现46-47
  • 4.5.3 合并结果展示47-48
  • 4.6 实验结果和评价48-51
  • 4.6.1 事件抽取各模块说明48-49
  • 4.6.2 实验及分析49-51
  • 4.7 本章小结51-53
  • 第五章 总结与展望53-55
  • 5.1 总结53
  • 5.2 未来工作展望53-55
  • 参考文献55-59
  • 攻读学位期间公开发表的论文59-60
  • 致谢60-61

【引证文献】
中国硕士学位论文全文数据库 前1条
1 韩永峰;网络新闻突发事件信息抽取技术研究[D];解放军信息工程大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 程泽凯,陆小艺;文本分类中的特征选择方法[J];安徽工业大学学报(自然科学版);2004年03期
2 周水庚,周傲英,曹晶,胡运发;一种基于密度的快速聚类算法[J];计算机研究与发展;2000年11期
3 周文;刘宗田;孔庆苹;;基于事件的知识处理研究综述[J];计算机科学;2008年02期
4 张 阳,李建良,胡正国;NewsGrouper:一个自动抽取重要新闻的软件工具[J];计算机工程;2002年04期
5 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
6 李芳,盛焕烨,姚天昉;信息检索与信息抽取技术的研究[J];计算机应用研究;2002年01期
7 刘迁;焦慧;贾惠波;;信息抽取技术的发展现状及构建方法的研究[J];计算机应用研究;2007年07期
8 袁毓林;信息抽取的语义知识资源研究[J];中文信息学报;2002年05期
9 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
10 黄德根,岳广玲,杨元生;基于统计的中文地名识别[J];中文信息学报;2003年02期
【共引文献】
中国期刊全文数据库 前10条
1 何甫权;;英语指代与翻译[J];安徽文学(下半月);2008年08期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 樊孝忠,柳林,任锋;汉字智能输入刍议[J];兵工自动化;1995年04期
4 李畅;王永良;冯晓洁;聂峰;;作战文书关键信息抽取方法[J];兵工自动化;2011年05期
5 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
6 李国和,赵沁平;信息系统的一种分块特征选取方法[J];北京航空航天大学学报;2003年03期
7 李国和,赵沁平,王喜;一种频繁复合项目集的混合求解方法[J];北京航空航天大学学报;2004年08期
8 宁文如,申海军;飞行员导航专家系统[J];北京航空航天大学学报;1997年06期
9 高鲁山;论计算机辅助编辑和编辑专家系统[J];编辑学报;1991年01期
10 王孟杰;;新一代互联网业务计费功能的研究与实现[J];北京邮电大学学报;2008年03期
中国重要会议论文全文数据库 前10条
1 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
4 孙兆豪;李昂;刘坤起;解建军;;论代数、逻辑和智能系统之间的对应关系[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
5 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
6 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
7 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
8 宫蕊;舒红平;郭远远;;基于DBSCAN的密度聚类算法的研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
9 刘彤;孙永香;张振洪;;一种有效的基于密度和层次的聚类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
10 康卫鲜;叶德谦;;基于CURE的聚类算法研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
2 王涛;突发公共事件元事件模型及事件演化研究[D];大连理工大学;2011年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
5 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
6 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
7 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
8 冯肖维;基于多传感器信息融合的移动机器人位姿计算方法研究[D];上海大学;2011年
9 王飞;入侵检测分类器设计及其融合技术研究[D];南京理工大学;2011年
10 邱明波;动词的指向对汉语第三人称代词和反身代词的句内回指的制约[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
2 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
3 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
4 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
5 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
6 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年
7 柴红霞;移动机器人在SLAM中数据关联方法的研究[D];大连理工大学;2010年
8 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
9 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
10 王丹丹;基于数据挖掘的煤矿瓦斯事故预测方法研究[D];辽宁工程技术大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
2 于江德;李学钰;樊孝忠;庞文博;;最大熵模型的事件分类[J];电子科技大学学报;2010年04期
3 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
4 李素建;刘群;张志勇;程学旗;;语言信息处理技术中的最大熵模型方法[J];计算机科学;2002年07期
5 刘宗田;黄美丽;周文;仲兆满;付剑锋;单建芳;智慧来;;面向事件的本体研究[J];计算机科学;2009年11期
6 许旭阳;李弼程;张先飞;韩永峰;;基于事件实例驱动的新闻文本事件抽取[J];计算机科学;2011年08期
7 姜吉发;一种事件信息抽取模式获取方法[J];计算机工程;2005年15期
8 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
9 许荣华;吴刚;李培峰;朱巧明;;基于事件框架的主题事件融合研究[J];计算机应用研究;2009年12期
10 唐发明,王仲东,陈绵云;支持向量机多类分类算法研究[J];控制与决策;2005年07期
中国博士学位论文全文数据库 前2条
1 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
2 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前7条
1 刘海涛;面向新闻文本的自动摘要技术研究[D];国防科学技术大学;2005年
2 冯礼;基于事件框架的突发事件信息抽取[D];上海交通大学;2008年
3 周丹;基于子主题的多文档摘要关键技术研究[D];北京邮电大学;2008年
4 赵妍妍;中文事件抽取的相关技术研究[D];哈尔滨工业大学;2007年
5 吴刚;基于主题的中文事件抽取技术研究及应用[D];苏州大学;2009年
6 何翔;新闻传播框架理论研究[D];新疆大学;2009年
7 宋凡;音乐领域典型事件抽取技术的研究[D];哈尔滨工业大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
2 顾阳;论元结构理论介绍[J];国外语言学;1994年01期
3 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
4 范劲松,方廷健;特征选择和提取要素的分析及其评价[J];计算机工程与应用;2001年13期
5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
6 周文;刘宗田;陈慧琼;;FCA与本体结合研究的综述[J];计算机科学;2006年02期
7 谭红叶,郑家恒,刘开瑛;中国地名自动识别系统的设计与实现[J];计算机工程;2002年08期
8 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
9 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
10 吴强,刘宗田,强宇;基于本体的知识库推理研究[J];计算机应用研究;2005年01期
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
【相似文献】
中国期刊全文数据库 前10条
1 邱亚娜;;信息抽取在图书馆信息推送服务中的应用研究[J];图书馆工作与研究;2011年01期
2 徐健;张智雄;吴振新;;实体关系抽取的技术方法综述[J];现代图书情报技术;2008年08期
3 肖春;周建龙;;生物医学领域中的文本信息抽取技术与系统综述[J];计算机应用研究;2007年09期
4 陈慧炜;;公安领域案件文本信息抽取研究综述[J];文教资料;2010年18期
5 周晶;;基于条件随机域模型的中文实体关系抽取[J];计算机工程;2010年24期
6 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
7 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
8 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
9 张春明;;Web挖掘技术研究[J];廊坊师范学院学报(自然科学版);2008年05期
10 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 郭宏蕾;郭志立;;基于模型组合训练机制的特定领域名词性实体识别[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
8 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
10 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
6 董振东;到用户中去[N];中国计算机报;2003年
7 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
8 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
9 马志彦;悄然而至的EIP[N];中国计算机报;2002年
10 本报记者 于翔;BI:电信业渗透中[N];网络世界;2004年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
3 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
4 刘晓江;基于统计滚雪球模型的知识挖掘理论与方法[D];中国科学技术大学;2011年
5 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
6 刘慧;信息检索中用户需求的概念分析研究[D];上海交通大学;2009年
7 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
8 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
9 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
10 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
4 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
5 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
6 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
7 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
8 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
9 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
10 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026