收藏本站
《上海大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向事件的知识处理研究

付剑锋  
【摘要】: 以“事件”作为知识表示的基本单元和信息组织的重要手段,已经受到越来越多的重视。研究面向事件的知识,可以为自动文摘和问题回答系统等信息处理技术提供服务。本文主要从面向事件的中文语料库构建、事件识别、事件要素识别以及事件因果关系抽取等四个方面进行了深入的研究,并针对以往研究中存在的不足,提出了一些切实可行的解决办法,具体包括: 1.语料库建设是自然语言处理技术中的基础性的研究工作,由于研究的目的和研究的对象不相同,现有面向事件的语料库分别采用了不同的标注体系。这些标注体系主要关注某些特定类型的事件或事件要素,但是却忽略了一般意义上的事件以及人们对于事件的理解和认知。本文以调查问卷为基础,了解和分析了人们对于通常意义上的文本中的“事件”概念的理解,研究了中文事件的可标注性,提出了一种中文事件语料库的制作方法。该方法并不局限于标注某几类事件,而是针对文本中所有提及的事件。而且,该方法是建立在中文句法分析和语义分析基础之上的,符合中文的特点。评测实验表明,采用该方法标注得到的语料可以取得较高的一致性。我们还开发了一个标注辅助工具,收集了200篇突发事件领域的新闻报道作为生语料并对其进行了标注,制作了一个中文事件语料库(Chinese Event Corpus, CEC)。整个语料库的加工制作过程历时10个月,先后有近十人参与。与ACE和TimeBank语料库相比,CEC语料库的规模虽然偏小,但是对事件和事件要素的标注却最为全面。 2.事件识别是事件抽取任务的基础,目前的事件识别大多采用了机器学习的方法,这种方法需要发掘有效的特征以提高识别效果。本文提出了一种基于多种特征融合的事件识别方法,在构造特征向量时,加入了上下文特征、词性特征、句法特征以及语义特征等等。在两种不同的分类器上对这些特征的区分能力分别进行了实验和分析,实验表明,随着有效特征的加入,事件识别的效果明显提高,而将多种特征融合在一起时,事件识别的效果最好。与基于tf×idf的事件识别方法相比,本文方法可以取得更好的识别效果。 3.采用监督(分类)学习的方法识别事件要素,需要大规模人工标注的熟语料库作为训练集以获取事件要素的相关知识,对语料库的依赖性比较强,常常会因为语料稀疏的问题导致效果不理想。本文提出了一种基于半监督聚类和特征加权的事件要素识别方法,以减少对于语料的依赖。该方法利用少量的标记数据作为Seed集指导聚类,并且在聚类分析中根据不同特征的贡献分别赋予相应的权值。此外,本文还对传统的半监督聚类算法(Constrained-KMeans)和特征加权算法(ReliefF)进行了改进,使之适用于事件要素识别任务。实验表明,该方法在带标记语料较少的情况下具有一定的优势,可以取得相对较好的识别效果。 4.事件因果关系是非常重要的一类语义关系,从文本中抽取事件因果关系具有广阔的应用前景。传统的事件因果关系抽取方法只能抽取显式带标记的、句内的一因一果关系。实际上,文本中除了包含上述因果关系之外,还包含了大量的无标记因果关系、跨句/跨段因果关系以及一因多果、多因一果和多因多果等。针对这种不足,本文提出了一种基于层叠条件随机场的事件因果关系抽取方法,该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。语料分析和实验表明,本文方法不仅可以有效覆盖文本中的各种因果关系(包括:带标记/无标记因果关系、句内/跨句/跨段因果关系以及一因一果、一因多果、多因一果和多因多果等),并且均能取得较好的抽取效果。
【学位授予单位】:上海大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前2条
1 马彬;洪宇;杨雪蓉;姚建民;朱巧明;;基于语义依存线索的事件关系识别方法研究[J];北京大学学报(自然科学版);2013年01期
2 廖涛;刘宗田;王先传;;基于事件的多主题文本自动文摘方法[J];计算机工程;2013年03期
中国博士学位论文全文数据库 前3条
1 单建芳;面向事件的文本表示研究[D];上海大学;2012年
2 张明尧;基于事件链的语篇连贯研究[D];武汉大学;2013年
3 张旭洁;事件本体构建中几个关键问题的研究[D];上海大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
2 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
3 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
4 于江德;樊孝忠;庞文博;;事件信息抽取中语义角色标注研究[J];计算机科学;2008年03期
5 刘宗田;黄美丽;周文;仲兆满;付剑锋;单建芳;智慧来;;面向事件的本体研究[J];计算机科学;2009年11期
6 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
7 吴平博,陈群秀,马亮;基于事件框架的事件相关文档的智能检索研究[J];中文信息学报;2003年06期
8 周强;汉语句法树库标注体系[J];中文信息学报;2004年04期
9 王昀,苑春法;基于转换的时间-事件关系映射[J];中文信息学报;2004年04期
10 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[J];中文信息学报;2006年01期
中国重要会议论文全文数据库 前3条
1 王洋;秦兵;郑实福;;句子相似度计算在FAQ中的应用[A];第一届学生计算语言学研讨会论文集[C];2002年
2 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
3 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 干红华;基于事件的因果关系可计算化分析研究[D];浙江大学;2003年
2 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
3 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前1条
1 冯礼;基于事件框架的突发事件信息抽取[D];上海交通大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 张洁;彭琳;;基于事件本体的三化螟种群信息管理系统研究[J];安徽农业科学;2011年36期
2 王尔丹;人群运动与密度估计技术研究[J];安全;2005年03期
3 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
4 康伟;;毕业(设计)论文题目审核及选题管理系统[J];辽宁科技大学学报;2009年03期
5 云晓燕;王春英;;基于最大树法的多文档文摘子主题划分[J];辽宁科技大学学报;2009年06期
6 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
7 周德强;冯建中;;建筑物沉降预测的改进Verhulst模型研究[J];地下空间与工程学报;2011年01期
8 王立平;孔小梅;付梦印;王美玲;张甲文;姜明;;Temperature Drift Modeling of FOG Based on LS-WSVM[J];Journal of China Ordnance;2008年03期
9 王亮;胡静涛;;基于LS-SVM的光刻过程R2R预测控制方法[J];半导体技术;2012年06期
10 王逢鑫;论象声词——英汉象声词语义比较[J];北京大学学报(英语语言文学专刊);1992年02期
中国重要会议论文全文数据库 前10条
1 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
2 宋海鹰;桂卫华;阳春华;;基于最小二乘支持向量机的Hammerstein-Wiener模型辨识[A];第二十六届中国控制会议论文集[C];2007年
3 ;Inverse System Control of Nonlinear Systems Using LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
5 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
6 ;LS-SVM Based Stable Generalized Predictive Control[A];第二十七届中国控制会议论文集[C];2008年
7 阎纲;梁昔明;龙祖强;李翔;;一种新的提前一步预测控制算法[A];第二十七届中国控制会议论文集[C];2008年
8 孙玉坤;王博;丁慎平;;基于模糊支持向量机的赖氨酸发酵软测量[A];第二十七届中国控制会议论文集[C];2008年
9 ;GA Based LS-SVM Classifier for Waste Water Treatment Process[A];第二十七届中国控制会议论文集[C];2008年
10 胡清华;常军涛;鲍文;于达仁;;高超声速发动机进气道起动/不起动模式分析[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
3 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
4 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
5 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
6 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
7 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
8 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
9 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
10 包鑫;稳健回归技术及其在光谱分析中的应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 曾传华;基于颜色和纹理特征的竹条分级方法研究[D];华中农业大学;2010年
2 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
3 孟培培;基于3S的土地督察信息系统研究[D];山东科技大学;2010年
4 李海清;支持向量机在金融市场预测中的应用[D];辽宁师范大学;2010年
5 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
6 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
7 李光远;基于在线聚类和最小二乘支持向量机的模糊建模方法研究[D];郑州大学;2010年
8 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
9 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
10 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 M.A.K.韩礼德;姜望琪;付毓玲;;篇章、语篇、信息——系统功能语言学视角[J];北京大学学报(哲学社会科学版);2011年01期
2 许余龙;;向心理论的参数化研究[J];当代语言学;2008年03期
3 黄昌宁;大规模真实文本处理的理论与方法——记第五届国际极大规模语料库研讨会(WVLC-5)[J];当代语言学;1998年01期
4 仲兆满;刘宗田;周文;付剑锋;;基于事件的文本相似度计算[J];广西师范大学学报(自然科学版);2009年01期
5 吕奕;;新闻报道:体裁模式及其文体分析——以大学英语教材中一则新闻报道为例[J];和田师范专科学校学报;2011年04期
6 姚志均;刘俊涛;周瑜;刘文予;;基于对称KL距离的相似性度量方法[J];华中科技大学学报(自然科学版);2011年11期
7 史忠植,董明楷,蒋运承,张海俊;语义Web的逻辑基础[J];中国科学E辑:信息科学;2004年10期
8 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
9 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
10 秦兵;刘挺;陈尚林;李生;;多文档文摘中句子优化选择方法研究[J];计算机研究与发展;2006年06期
中国博士学位论文全文数据库 前10条
1 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
2 刘岩;关于图的最大匹配问题的若干结果[D];郑州大学;2000年
3 干红华;基于事件的因果关系可计算化分析研究[D];浙江大学;2003年
4 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
5 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
6 朱海平;基于概念图匹配的语义搜索[D];上海交通大学;2006年
7 孙肇春;汉语事体结构[D];广东外语外贸大学;2007年
8 乐明;汉语财经评论的修辞结构标注及篇章研究[D];中国传媒大学;2006年
9 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
10 樊友新;从事件结构到句子结构[D];华东师范大学;2010年
中国硕士学位论文全文数据库 前4条
1 蔡颂梅;语义增强的关系相似度度量算法研究[D];华东师范大学;2011年
2 丁效;句子级中文事件抽取关键技术研究[D];哈尔滨工业大学;2011年
3 王静;汉语V-R动结式的事件结构理论研究[D];湖南大学;2008年
4 钟珊;基于有色网的行动推理的描述与分析[D];江苏大学;2009年
【二级引证文献】
中国博士学位论文全文数据库 前1条
1 董坚峰;面向公共危机预警的网络舆情分析研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前1条
1 李妍;基于多特征的中文文本蕴涵识别方法[D];武汉科技大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
2 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
3 戴浩一;概念结构与非自主性语法:汉语语法概念系统初探[J];当代语言学;2002年01期
4 康达周;徐宝文;陆建江;李言辉;;支持语义web模糊本体的描述逻辑(英文)[J];Journal of Southeast University(English Edition);2006年03期
5 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
6 史忠植,董明楷,蒋运承,张海俊;语义Web的逻辑基础[J];中国科学E辑:信息科学;2004年10期
7 杨炳儒,孙海洪,熊范纶;利用标准SQL查询挖掘多值型关联规则及其评价[J];计算机研究与发展;2002年03期
8 周皓峰,朱扬勇,施伯乐;一个基于兴趣度的关联规则采掘算法[J];计算机研究与发展;2002年04期
9 王惠锋 ,孙正兴 ,王箭;语义图像检索研究进展[J];计算机研究与发展;2002年05期
10 李学明,刘勇国,彭军,张伟,廖晓峰,吴中福;扩展型关联规则和原关联规则及其若干性质[J];计算机研究与发展;2002年12期
中国重要会议论文全文数据库 前5条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 周强;;汉语句法知识的自动获取研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 王洋;秦兵;郑实福;;句子相似度计算在FAQ中的应用[A];第一届学生计算语言学研讨会论文集[C];2002年
4 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前3条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
3 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前4条
1 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
2 王昀;金融领域中汉语时间信息抽取的研究[D];清华大学;2004年
3 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年
4 陈静;基于本体的信息抽取研究[D];苏州大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 阎辉,张学工,李衍达;基于核函数的最大间隔聚类算法[J];清华大学学报(自然科学版);2002年01期
2 颜雪松,蔡之华;一种快速聚类高维数据的算法研究[J];计算机工程;2003年01期
3 刘志成,文全刚;“K-中心点”聚类算法分析及其实现[J];电脑知识与技术;2005年06期
4 熊家军,涂静,李庆华;入侵检测聚类中相似性度量的等效性研究[J];计算机工程;2005年07期
5 夏咏梅;基于文本挖掘的分类与聚类技术[J];情报探索;2005年03期
6 林树宽;张冬岩;李文贤;张天成;张一飞;;基于聚类和主成分分析的神经网络预测模型[J];小型微型计算机系统;2005年12期
7 陈婷婷;方滨兴;郑军;;基于层次自组织特征映射的网络异常检测系统数据分析器[J];计算机应用与软件;2006年05期
8 陈琦;刘蓉;周茉;罗强;;一种改进的关联规则挖掘算法[J];计算机与数字工程;2006年08期
9 郝伟,徐敏,张瑞林;神经网络聚类方法在旋转机械故障诊断中的应用研究[J];郑州工业大学学报;1995年04期
10 陈金山,韦岗;遗传+模糊C-均值混合聚类算法[J];电子与信息学报;2002年02期
中国重要会议论文全文数据库 前10条
1 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
2 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
3 穆向禹;浦剑涛;张树武;徐波;;基于状态子空间聚类的多层MLLR自适应算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
5 杨广林;赵云峰;王书理;;Gabor滤波器及其在图像特征提取方面的优化算法[A];2005年中国智能自动化会议论文集[C];2005年
6 冯又层;蔡勖;;基于自组织特征映射的证券市场聚类[A];第二届全国复杂动态网络学术论坛论文集[C];2005年
7 张刚;刘悦;;基于查询空间的分布式文档集合划分算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 文健;李舟军;;基于聚类语言模型的生物文献检索技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 高阳;赵瑞娜;赵志强;阿杉;;基于自组织特征映射网络的全国地级市城市地价区域分类研究[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
10 刘哲;唐雁;陈强;;三维模型有意义分割技术现状及应用[A];2008年计算机应用技术交流会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 重庆 朱宏志;用“事件触发器”管理网络[N];电脑报;2004年
2 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
3 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
4 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
5 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
6 符信;30个指标评价社会发展水平[N];南方日报;2005年
7 记者 李远治 通讯员 邹超 敖翔;重庆号百传媒探索聚类市场新模式[N];人民邮电;2009年
8 毛晓刚;重视突发事件背后的“基层危机”[N];北京日报;2008年
9 本报记者 薛海滨;四大概念技术秀[N];计算机世界;2005年
10 李要深 杜毅(作者来自西南财经大学信托与理财研究所);银行将以设计创新体现竞争力[N];上海证券报;2007年
中国博士学位论文全文数据库 前10条
1 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
2 张春菊;中文文本中事件时空与属性信息解析方法研究[D];南京师范大学;2013年
3 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
4 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
5 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
6 胡宏宇;基于视频处理的交通事件识别方法研究[D];吉林大学;2010年
7 耿直;基于语料库的比较句式“跟、有、比”的描写与分析[D];北京大学;2012年
8 刘兵;基于聚类与流形正则化的分类方法研究[D];中国矿业大学;2013年
9 蔡维玲;基于聚类的图像分割和分类器设计的研究[D];南京航空航天大学;2008年
10 饶萍;时间指称的照应性研究[D];上海外国语大学;2012年
中国硕士学位论文全文数据库 前10条
1 孙中友;基于主题的事件融合技术的研究与实现[D];苏州大学;2010年
2 李轩;《汉语会话301句》语料的语用价值研究[D];吉林大学;2012年
3 张小倩;情感极性转移现象研究及应用[D];苏州大学;2012年
4 杜聪慧;面向互联网数据的新词发现平台的设计与实现[D];哈尔滨工业大学;2013年
5 徐斌;对汉语中电话投诉的交流模式及特点的会话分析[D];山西大学;2011年
6 刘昊;基于模板核和扩展特征的蛋白质关系抽取[D];大连理工大学;2011年
7 李君婵;汉语文本中的时间、事件及其属性识别[D];山西大学;2013年
8 王斌;双层数据流聚类框架的设计与实现[D];吉林大学;2004年
9 郑国荣;基于电信CRM系统的客户消费模式研究[D];重庆大学;2005年
10 王清江;基于力学的聚类算法[D];大连理工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026