收藏本站
《上海大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向事件的知识处理研究

付剑锋  
【摘要】: 以“事件”作为知识表示的基本单元和信息组织的重要手段,已经受到越来越多的重视。研究面向事件的知识,可以为自动文摘和问题回答系统等信息处理技术提供服务。本文主要从面向事件的中文语料库构建、事件识别、事件要素识别以及事件因果关系抽取等四个方面进行了深入的研究,并针对以往研究中存在的不足,提出了一些切实可行的解决办法,具体包括: 1.语料库建设是自然语言处理技术中的基础性的研究工作,由于研究的目的和研究的对象不相同,现有面向事件的语料库分别采用了不同的标注体系。这些标注体系主要关注某些特定类型的事件或事件要素,但是却忽略了一般意义上的事件以及人们对于事件的理解和认知。本文以调查问卷为基础,了解和分析了人们对于通常意义上的文本中的“事件”概念的理解,研究了中文事件的可标注性,提出了一种中文事件语料库的制作方法。该方法并不局限于标注某几类事件,而是针对文本中所有提及的事件。而且,该方法是建立在中文句法分析和语义分析基础之上的,符合中文的特点。评测实验表明,采用该方法标注得到的语料可以取得较高的一致性。我们还开发了一个标注辅助工具,收集了200篇突发事件领域的新闻报道作为生语料并对其进行了标注,制作了一个中文事件语料库(Chinese Event Corpus, CEC)。整个语料库的加工制作过程历时10个月,先后有近十人参与。与ACE和TimeBank语料库相比,CEC语料库的规模虽然偏小,但是对事件和事件要素的标注却最为全面。 2.事件识别是事件抽取任务的基础,目前的事件识别大多采用了机器学习的方法,这种方法需要发掘有效的特征以提高识别效果。本文提出了一种基于多种特征融合的事件识别方法,在构造特征向量时,加入了上下文特征、词性特征、句法特征以及语义特征等等。在两种不同的分类器上对这些特征的区分能力分别进行了实验和分析,实验表明,随着有效特征的加入,事件识别的效果明显提高,而将多种特征融合在一起时,事件识别的效果最好。与基于tf×idf的事件识别方法相比,本文方法可以取得更好的识别效果。 3.采用监督(分类)学习的方法识别事件要素,需要大规模人工标注的熟语料库作为训练集以获取事件要素的相关知识,对语料库的依赖性比较强,常常会因为语料稀疏的问题导致效果不理想。本文提出了一种基于半监督聚类和特征加权的事件要素识别方法,以减少对于语料的依赖。该方法利用少量的标记数据作为Seed集指导聚类,并且在聚类分析中根据不同特征的贡献分别赋予相应的权值。此外,本文还对传统的半监督聚类算法(Constrained-KMeans)和特征加权算法(ReliefF)进行了改进,使之适用于事件要素识别任务。实验表明,该方法在带标记语料较少的情况下具有一定的优势,可以取得相对较好的识别效果。 4.事件因果关系是非常重要的一类语义关系,从文本中抽取事件因果关系具有广阔的应用前景。传统的事件因果关系抽取方法只能抽取显式带标记的、句内的一因一果关系。实际上,文本中除了包含上述因果关系之外,还包含了大量的无标记因果关系、跨句/跨段因果关系以及一因多果、多因一果和多因多果等。针对这种不足,本文提出了一种基于层叠条件随机场的事件因果关系抽取方法,该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。语料分析和实验表明,本文方法不仅可以有效覆盖文本中的各种因果关系(包括:带标记/无标记因果关系、句内/跨句/跨段因果关系以及一因一果、一因多果、多因一果和多因多果等),并且均能取得较好的抽取效果。
【关键词】:事件 中文事件语料库 事件识别 事件要素识别 因果关系抽取
【学位授予单位】:上海大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP393.09
【目录】:
  • 摘要6-8
  • ABSTRACT8-14
  • 第一章 绪论14-19
  • 1.1 研究背景和意义14-15
  • 1.2 研究内容15-17
  • 1.3 论文结构17-18
  • 1.4 课题来源18-19
  • 第二章 面向事件的知识处理研究概述19-35
  • 2.1 面向事件的语料标注19-25
  • 2.1.1 ACE 评测语料20-22
  • 2.1.2 TimeBank 语料22-24
  • 2.1.3 国内的事件标注研究24-25
  • 2.2 事件的识别和抽取25-32
  • 2.2.1 MUC 评测会议25-27
  • 2.2.2 TDT 评测会议27-29
  • 2.2.3 ACE 评测会议29-31
  • 2.2.4 其它相关研究31-32
  • 2.3 事件关系研究32-34
  • 2.3.1 事件时序关系32-33
  • 2.3.2 事件因果关系33-34
  • 2.4 小结34-35
  • 第三章 面向事件的中文语料库构建35-55
  • 3.1 中文事件的可标注性研究35-42
  • 3.1.1 问卷调查36-38
  • 3.1.2 名词的可标注性分析38-39
  • 3.1.3 动词的可标注性分析39-41
  • 3.1.4 事件范围的划分41-42
  • 3.2 中文事件语料库制作42-49
  • 3.2.1 制作方法42-46
  • 3.2.2 标注工具46-47
  • 3.2.3 制作方法的评测47-49
  • 3.3 CEC 规格说明49-52
  • 3.4 统计和分析52-54
  • 3.5 小结54-55
  • 第四章 基于多种特征融合的事件识别55-73
  • 4.1 事件识别任务描述55-58
  • 4.2 分类器模型和文本表示模型58-62
  • 4.2.1 支持向量机58-59
  • 4.2.2 K 最近邻59-60
  • 4.2.3 文本表示模型60-62
  • 4.3 多种特征融合62-67
  • 4.3.1 依存句法特征62-64
  • 4.3.2 语义特征64-66
  • 4.3.3 特征向量的构造66-67
  • 4.4 实验和讨论67-72
  • 4.4.1 实验准备67-69
  • 4.4.2 实验和分析69-71
  • 4.4.3 相关工作讨论71-72
  • 4.5 小结72-73
  • 第五章 基于半监督聚类和特征加权的事件要素识别73-91
  • 5.1 事件要素识别任务描述73-76
  • 5.2 半监督聚类算法76-81
  • 5.2.1 Constrained-KMeans 算法76-77
  • 5.2.2 自适应Constrained-KMeans 算法77-81
  • 5.3 特征加权算法81-84
  • 5.3.1 特征加权81-82
  • 5.3.2 ReliefF 算法的移植和改进82-84
  • 5.4 实验和讨论84-90
  • 5.4.1 实验和分析84-89
  • 5.4.2 相关工作讨论89-90
  • 5.5 小结90-91
  • 第六章 基于层叠条件随机场的事件因果关系抽取91-110
  • 6.1 因果关系中的基本概念91-94
  • 6.2 事件序列因果关系标注94-97
  • 6.2.1 序列标注问题94-95
  • 6.2.2 事件序列及其因果关系标注方法95-97
  • 6.3 基于CCRFs 的事件因果关系自动标注97-105
  • 6.3.1 条件随机场模型98-101
  • 6.3.2 事件因果关系标注的CCRFs 模型101-102
  • 6.3.3 特征选择和归纳102-105
  • 6.4 实验和讨论105-109
  • 6.4.1 语料分析105-106
  • 6.4.2 实验和分析106-108
  • 6.4.3 相关工作讨论108-109
  • 6.5 小结109-110
  • 第七章 结论与展望110-113
  • 7.1 结论110-111
  • 7.2 进一步的研究工作及展望111-113
  • 参考文献113-122
  • 作者在攻读博士学位期间公开发表的论文122-124
  • 作者在攻读博士学位期间参与的项目124-125
  • 致谢125

【相似文献】
中国期刊全文数据库 前10条
1 张祥;石广田;;基于聚类优化的支持QOS语义web服务发现框架研究[J];硅谷;2011年17期
2 吴谋硕;;基于用户信息的信息检索效果提高策略[J];电脑知识与技术;2011年21期
3 颜子夜;陆耀;李建武;马跃;;一种基于核主成分分析的图像超分辨率算法[J];山东大学学报(工学版);2011年04期
4 畅春华;赵汗青;秦博;;基于激光雷达的移动机器人实时位姿估计算法[J];装甲兵工程学院学报;2011年04期
5 潘鸿飞;梁栋;陈军宁;唐俊;王年;杨海蓉;;基于谱图理论的形状聚类仿真(英文)[J];系统仿真学报;2011年07期
6 李优;;Web搜索结果组织与展示的一种机制[J];信息安全与技术;2011年06期
7 戴菲;;数据挖掘技术在电子商务中的应用[J];电脑知识与技术;2011年21期
8 杨东风;;基于多兴趣度的图书借阅推荐系统研究与设计[J];信息技术;2011年07期
9 刘衍民;牛奔;赵庆祯;;基于均匀设计的聚类多目标粒子群优化算法[J];计算机工程;2011年14期
10 孙达辰;孙迎燕;周广群;;基于边缘算子的有效子序列分割方法[J];计算机与现代化;2011年07期
中国重要会议论文全文数据库 前10条
1 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
2 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
3 穆向禹;浦剑涛;张树武;徐波;;基于状态子空间聚类的多层MLLR自适应算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
5 杨广林;赵云峰;王书理;;Gabor滤波器及其在图像特征提取方面的优化算法[A];2005年中国智能自动化会议论文集[C];2005年
6 冯又层;蔡勖;;基于自组织特征映射的证券市场聚类[A];第二届全国复杂动态网络学术论坛论文集[C];2005年
7 张刚;刘悦;;基于查询空间的分布式文档集合划分算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 文健;李舟军;;基于聚类语言模型的生物文献检索技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 高阳;赵瑞娜;赵志强;阿杉;;基于自组织特征映射网络的全国地级市城市地价区域分类研究[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
10 刘哲;唐雁;陈强;;三维模型有意义分割技术现状及应用[A];2008年计算机应用技术交流会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
2 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
3 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
4 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
5 符信;30个指标评价社会发展水平[N];南方日报;2005年
6 记者 李远治 通讯员 邹超 敖翔;重庆号百传媒探索聚类市场新模式[N];人民邮电;2009年
7 本报记者 薛海滨;四大概念技术秀[N];计算机世界;2005年
8 长江期货 韩锦 邹云峰 高华;基于RFM模型的聚类分析算法在期货公司客户分类中的应用[N];期货日报;2008年
9 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
10 本报记者 许愿;顾客的终生价值[N];机电商报;2005年
中国博士学位论文全文数据库 前10条
1 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
2 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
3 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
4 蔡维玲;基于聚类的图像分割和分类器设计的研究[D];南京航空航天大学;2008年
5 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
6 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
7 雷景生;神经网络的分类、聚类功能及其规则抽取研究[D];新疆大学;2003年
8 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
9 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
10 贾俊杰;空间数据挖掘中若干关键技术研究[D];长安大学;2009年
中国硕士学位论文全文数据库 前10条
1 王斌;双层数据流聚类框架的设计与实现[D];吉林大学;2004年
2 蔡博文;高维数据集中离群数据挖掘方法的研究[D];合肥工业大学;2006年
3 刘晓燕;基于聚类的入侵检测系统研究[D];青岛大学;2006年
4 于世东;多维数据可视化技术的研究及应用[D];沈阳工业大学;2006年
5 戴金;改进K-MEANS算法及在Ⅰ型糖尿病血糖值的聚类应用[D];北京交通大学;2011年
6 孙会岭;移动环境中基于聚类的个性化推荐算法研究[D];燕山大学;2011年
7 郑国荣;基于电信CRM系统的客户消费模式研究[D];重庆大学;2005年
8 王清江;基于力学的聚类算法[D];大连理工大学;2006年
9 张锦;关于一种混合式入侵检测系统的研究与设计[D];沈阳工业大学;2006年
10 于洪;基于脑电信号的警觉度估计[D];上海交通大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026