收藏本站
《上海交通大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义的文本事件信息抽取方法的研究与实现

李婷玉  
【摘要】:事件抽取和追踪是自然语言处理领域一个非常重要的研究方向,如何准确而高效地从大量繁杂无序的信息中提取到感兴趣的事件信息,一直是事件抽取研究领域的关键问题。 一般而言,事件抽取就是从非结构化文档中抽取出用户感兴趣的事件,同时用结构化形式描述,供用户查询和进一步追踪分析等。事件抽取的研究对象会选取某一个固定领域或者新闻文本,这样更符合用户对于事件抽取的想象。并且事件抽取的形式也比较固定和单一,一般会采取基于模板匹配提取结构化文本或分析文本段落等进行分类的方法。 本课题基于时空元素语义搜索引擎的研究背景,提出了一种基于语义的文本事件信息抽取方法,创新地通过应用多方面语义知识和统计方法,强调时、空元素对于事件追踪的定位功能,进行信息抽取和归并,最终实现对文本中事件的描述。 该课题的处理文本类型多样,结构与行文风格复杂,如果采用传统的方法达不到理想的结果。而在实际应用中,这种情况非常常见。本文目标明确,方法有效且不繁琐,结合语义知识和统计学习,对处理复杂语料和大规模数据有着非常明显的优势。 另外,在本文中涉及到多方面自然语言处理的相关概念和算法研究,可以说,通过本课题对自然语言处理的研究,尤其是对信息抽取的研究有了深刻的认识与感悟。
【关键词】:事件抽取 语义处理 词汇链 本体库
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • ABSTRACT6-14
  • 第一章 引论14-22
  • 1.1 研究背景14-17
  • 1.1.1 事件的定义15
  • 1.1.2 相关工作15-17
  • 1.2 工作动机17-19
  • 1.2.1 难点描述17-18
  • 1.2.2 课题创新点18-19
  • 1.2.3 本文主要研究内容和贡献19
  • 1.3 论文的主要内容和章节安排19-22
  • 第二章 相关工作22-28
  • 2.1 基本概念22
  • 2.1.1 事件(Event)22
  • 2.1.2 主题(Topic)22
  • 2.2 事件抽取研究概述22-25
  • 2.2.1 知识工程方法22-23
  • 2.2.2 机器学习方法23-24
  • 2.2.3 事件抽取的主要困难24-25
  • 2.3 本文的事件抽取方法25-26
  • 2.4 本章小结26-28
  • 第三章 候选词列表生成与核心元素的提取28-48
  • 3.1 问题描述28
  • 3.2 文本预处理28-35
  • 3.2.1 分词28-33
  • 3.2.2 停用词处理33-34
  • 3.2.3 词性标注34-35
  • 3.3 候选词抽取35-39
  • 3.3.1 文本向量化表示36-37
  • 3.3.2 特征值计算37-39
  • 3.4 核心元素的抽取39-45
  • 3.4.1 核心地名的提取39-41
  • 3.4.2 核心时间的抽取41-45
  • 3.4.3 核心人名抽取45
  • 3.5 实验及分析45-46
  • 3.5.1 实验环境45
  • 3.5.2 实验语料45-46
  • 3.5.3 参数设置46
  • 3.5.4 实验结果46
  • 3.6 本章小结46-48
  • 第四章 本体库的建立48-66
  • 4.1 相关概念48-52
  • 4.1.1 本体(Ontology)的定义48-49
  • 4.1.2 本体的分类49-50
  • 4.1.3 本体的语言50-52
  • 4.1.4 本体构建方法52
  • 4.2 古今地名和文化成果本体库的建立52-62
  • 4.2.1 构建准备52-55
  • 4.2.2 构建工具55-56
  • 4.2.3 构建过程56-62
  • 4.3 实验及结果分析62-64
  • 4.3.1 实验环境和工具62
  • 4.3.2 性能部分62
  • 4.3.3 API 部分62-64
  • 4.3.4 结果分析64
  • 4.4 本章小结64-66
  • 第五章 词汇链创建66-78
  • 5.1 问题的描述66
  • 5.2 词汇链相关介绍66-69
  • 5.2.1 词汇链的基本概念66-67
  • 5.2.2 传统算法67
  • 5.2.3 Hirst 算法67-68
  • 5.2.4 Barzilay 算法68-69
  • 5.3 基于知网的词汇链创建69-73
  • 5.3.1 知网的介绍69-70
  • 5.3.2 语义相似度计算70-71
  • 5.3.3 词汇链的构建71-72
  • 5.3.4 代码实现72-73
  • 5.4 实验及结果分析73-76
  • 5.4.1 实验环境73
  • 5.4.2 实验语料73
  • 5.4.3 参数设置73
  • 5.4.4 实验结果比对73-75
  • 5.4.5 结果分析75-76
  • 5.5 本章小结76-78
  • 第六章 事件抽取系统的实现78-88
  • 6.1 问题描述78
  • 6.2 实验环境78
  • 6.3 系统架构78-79
  • 6.4 核心算法及实验参数设置79-81
  • 6.4.1 数据清洗模块79-81
  • 6.4.2 关键词打分模块81
  • 6.4.3 词语相似度计算和词汇链模块81
  • 6.4.4 核心元素提取模块81
  • 6.5 测试样例展示81-83
  • 6.5.1 测试样例81-82
  • 6.5.2 抽取结果82
  • 6.5.3 事件信息抽取集合82
  • 6.5.4 样例分析82-83
  • 6.6 测试方法83-86
  • 6.6.1 测试方法设计83-84
  • 6.6.2 测试结果84-85
  • 6.6.3 测试结果分析85-86
  • 6.7 本章小结86-88
  • 第七章 结束语88-90
  • 7.1 主要工作与创新点88
  • 7.2 后续研究工作88-90
  • 参考文献90-94
  • 致谢94-95
  • 攻读硕士学位期间已发表或录用的论文95

【相似文献】
中国期刊全文数据库 前10条
1 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
2 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
3 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
4 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
5 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期
6 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
7 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
8 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期
9 冯曦曦;朱学芳;;基于Spring框架的农业网站信息资源采集器设计与实现[J];信息化研究;2011年03期
10 孙中友;李培峰;朱巧明;;事件信息抽取中的数据预处理方法研究[J];计算机应用与软件;2011年08期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
9 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 淅川县一高中 周延芬;忆、读、想、练[N];学知报;2010年
6 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
7 董振东;到用户中去[N];中国计算机报;2003年
8 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 马志彦;悄然而至的EIP[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
10 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
4 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
5 郭力;Web正文信息抽取与面向层次结构的分类技术研究[D];华南理工大学;2011年
6 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
7 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
8 张静;面向OA期刊检索结果页面的信息抽取方法研究[D];燕山大学;2010年
9 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
10 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026