收藏本站
《苏州大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

指代消解关键问题研究

孔芳  
【摘要】: 随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。指代消解是自然语言处理的重点和难点之一,在文本摘要、机器翻译、多语言信息处理和信息抽取等诸多应用中都涉及到指代消解问题。而指代消解又综合了多种自然语言处理技术,它的解决依赖于词性标注、命名实体识别、名词短语识别、句法分析、语义分析等众多相关技术。 本文首先深入分析了现有的指代消解技术,并对其进行了归纳总结,给出了目前指代消解领域主要存在的问题和不足,并进一步给出了该领域当前的研究热点和趋势。作为研究基础,本文参考Soon等(2001)给出的经典指代消解基本框架构建了一个性能良好的指代消解基准平台,与国际上一些出色的指代消解系统相比,该平台在MUC-6和ACE2003上的性能均达到了国际领先水平。在此基础上,本文从以下三方面展开了深入研究: 第一,基于中心理论的指代消解研究。在中心理论的指导下,借助语义角色将中心理论从语法层扩展到语义层,并提取了与之相关的三组特征:语义角色特征,代词阶特征和代词子类别特征。在ACE 2003语料上进行的各类实验都表明,这三组特征能极大地提升了指代消解的性能,特别是代词消解的性能。同时,实验也表明,它们不仅对短距离指代关系的消解有益,对长距离指代关系的消解也很有帮助。 第二,基于树核函数的指代消解研究。在深入研究平面特征的基础上对结构化信息在指代消解中的应用进行了探索。重点研究了多种捕获结构化信息的方案,并通过实验分析了它们的优缺点。例如,在中心理论的指导下,增强了先行语候选词所在位置的句法描述;根据双候选模型,增加了先行语候选词的竞争者信息;在结构化信息中引入语义角色及代词类别等信息。在ACE 2004英文语料中的实验表明,基于树核函数的方法大大提高了英文指代消解的性能,特别是当前句代词消解的性能。同时,在ACE 2005中文语料中的实验表明,基于树核函数的方法同样大大提高了中文指代消解的性能,这表明结构化信息对指代消解而言是非常重要的,而且是语言无关的。 第三,指代消解中待消解项的自动识别研究。探讨了基于规则、平面特征和树核等三种待消解项识别方法,并将这三种待消解项识别方法分别应用于指代消解,通过对实验数据的分析阐述了待消解项识别对指代消解的作用。
【关键词】:指代消解 中心理论 语义角色 树核函数 待消解项识别
【学位授予单位】:苏州大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP301
【目录】:
  • 中文摘要3-5
  • Abstract5-11
  • 第一章 引言11-32
  • 1.1 课题背景及意义11-15
  • 1.1.1 课题背景11-14
  • 1.1.2 课题意义14-15
  • 1.2 指代消解基础知识15-22
  • 1.2.1 指代的基本概念15-17
  • 1.2.2 指代消解语料资源17-20
  • 1.2.3 指代消解评测20-22
  • 1.3 研究现状及分析22-28
  • 1.3.1 国外研究现状23-25
  • 1.3.2 国内研究现状25-26
  • 1.3.3 存在的问题和不足26-27
  • 1.3.4 研究的热点和趋势27-28
  • 1.4 本文的主要工作及解决的问题28-30
  • 1.5 本文的组织结构30-32
  • 第二章 基于机器学习的指代消解平台32-56
  • 2.1 指代消解平台概述32-33
  • 2.2 指代消解平台的构建33-42
  • 2.2.1 预处理33-38
  • 2.2.2 特征向量的选择38-39
  • 2.2.3 实例的生成39-42
  • 2.3 机器学习方法42-49
  • 2.3.1 基本原理43-47
  • 2.3.2 核47-48
  • 2.3.3 特点及优势48-49
  • 2.4 实验结果及分析49-55
  • 2.4.1 与其它指代消解系统的比较49-50
  • 2.4.2 各特征对指代消解的贡献度分析50-51
  • 2.4.3 按名词类别的指代消解性能分析51-53
  • 2.4.4 对代词指代消解性能的分析53-55
  • 2.5 本章小结55-56
  • 第三章 指代消解中语义角色的应用研究56-76
  • 3.1 语义及相关研究56-58
  • 3.2 语义角色及其应用研究58-62
  • 3.2.1 语义角色的基础知识59-60
  • 3.2.2 语义角色的应用研究60-62
  • 3.3 中心理论及相关研究62-65
  • 3.3.1 中心理论的基础知识62-64
  • 3.3.2 中心理论的相关研究64-65
  • 3.4 中心理论指导下语义角色在指代消解中的应用65-70
  • 3.4.1 中心理论的语义层扩展65-67
  • 3.4.2 语义角色在指代消解中的应用67-70
  • 3.5 实验结果及分析70-75
  • 3.5.1 改进系统的性能分析70-71
  • 3.5.2 改进系统中各组特征对代词消解性能的贡献度分析71-73
  • 3.5.3 改进系统中代词消解性能分析73-74
  • 3.5.4 改进系统对SRL 性能的依赖74-75
  • 3.6 本章小结75-76
  • 第四章 指代消解中结构化信息的应用研究76-102
  • 4.1 平面特征与结构化信息76-77
  • 4.2 结构化信息的相关研究77-79
  • 4.3 卷积树核79-81
  • 4.4 基于结构化信息的指代消解研究81-85
  • 4.4.1 句法树的基本裁剪策略82-83
  • 4.4.2 实验结果及分析83-85
  • 4.5 基于动态扩展树的指代消解研究85-92
  • 4.5.1 动态扩展策略85-90
  • 4.5.2 实验结果及分析90-92
  • 4.6 基于语义扩展树的指代消解研究92-94
  • 4.6.1 语义扩展策略92-93
  • 4.6.2 实验结果及分析93-94
  • 4.7 进一步分析94-98
  • 4.7.1 不同句法分析器的影响95-96
  • 4.7.2 两句内的代词指代消解96-97
  • 4.7.3 与基于特征的指代消解平台的合并97-98
  • 4.8 基于树核的中文指代消解98-100
  • 4.9 本章小结100-102
  • 第五章 指代消解中待消解项识别的研究102-119
  • 5.1 待消解项识别的相关研究102-103
  • 5.2 基于规则的待消解项识别研究103-105
  • 5.3 基于特征的待消解项识别的研究105-110
  • 5.3.1 待消解项识别分类器的构建105-106
  • 5.3.2 实验及分析106-110
  • 5.4 基于树核的待消解项识别的研究110-115
  • 5.4.1 裁剪策略110-111
  • 5.4.2 实验及分析111-115
  • 5.5 待消解项识别对指代消解的作用115-118
  • 5.6 本章小结118-119
  • 第六章 小结与展望119-122
  • 参考文献122-128
  • 攻读博士学位期间相关的科研论文情况128-131
  • 致谢131-132
  • 详细摘要132-141

【引证文献】
中国期刊全文数据库 前2条
1 李丽双;刘洋;黄德根;;基于组合核的蛋白质交互关系抽取[J];中文信息学报;2013年01期
2 徐凡;朱巧明;周国栋;;篇章分析技术综述[J];中文信息学报;2013年03期
中国硕士学位论文全文数据库 前7条
1 范洪侠;基于语义网络的自动文摘研究[D];长春理工大学;2011年
2 邹永强;新闻网页中人物实体关系提取技术研究[D];国防科学技术大学;2011年
3 侯立斌;中文事件抽取与缺失角色填充的研究[D];苏州大学;2012年
4 张宁;英文事件指代消解研究[D];苏州大学;2012年
5 高俊伟;中文指代消解关键问题研究[D];苏州大学;2012年
6 刘洋;基于组合核函数的蛋白质交互关系抽取[D];大连理工大学;2013年
7 赵知纬;面向信息抽取的中文跨文本指代消解研究[D];苏州大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 钱伟,郭以昆,周雅倩,吴立德;基于最大熵模型的英文名词短语指代消解[J];计算机研究与发展;2003年09期
2 孔祥勇,张冬茉;一种信息抽取系统中汉语同指消解算法[J];计算机工程;2003年16期
3 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
4 王凌飞,张玉敏,李堂秋;汉英机译系统中指代的确定 [J];计算机应用研究;2000年09期
5 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
6 李国臣,罗云飞;采用优先选择策略的中文人称代词的指代消解[J];中文信息学报;2005年04期
7 张 威,周昌乐;汉语语篇理解中元指代消解初步[J];软件学报;2002年04期
8 王厚峰,梅铮;鲁棒性的汉语人称代词消解[J];软件学报;2005年05期
9 王晓斌,周昌乐;基于语篇表述理论的汉语人称代词的消解研究[J];厦门大学学报(自然科学版);2004年01期
10 许敏,王能忠,马彦华;汉语中指代问题的研究及讨论[J];西南师范大学学报(自然科学版);1999年06期
【共引文献】
中国期刊全文数据库 前10条
1 区卫民;谭泗桥;袁哲明;柏连阳;熊洁仪;;SVR-KNN法用于除草剂QSAR研究[J];安徽农业科学;2008年35期
2 韩勇鹏;;SVM方法及其在乳制品分类问题上的应用[J];安徽农业科学;2009年08期
3 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
4 张永生;魏新军;侯振雨;彭娟;;支持向量回归分光光度法同时测定苋菜红和果绿[J];安徽农业科学;2010年33期
5 何甫权;;英语指代与翻译[J];安徽文学(下半月);2008年08期
6 张永生;;支持向量机在害虫预测预报中的应用[J];现代农业科技;2009年14期
7 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
8 宋海滨;刘云帼;;基于支持向量机的预测控制算法[J];兵工自动化;2006年04期
9 徐波;;基于改进PSO-LSSVM的军用工程机械研制费用预测模型[J];兵工自动化;2011年10期
10 马喜波;阎爱侠;;支持向量机算法用于烷基苯的热容和标准焓值的预测[J];北京化工大学学报(自然科学版);2008年02期
中国重要会议论文全文数据库 前10条
1 周绮凤;林成德;罗林开;彭洪;;一种基于黎曼度量的训练样本类不平衡SVM分类方法研究[A];第二十六届中国控制会议论文集[C];2007年
2 李帅;王精业;王丽娟;;基于马尔可夫模型的文本信息提取算法概述[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
3 李玉良;王良松;李晶;;图像中数字字符识别技术概览[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
4 张向波;梅国建;徐宗昌;;基于SVM的装备战备完好性预测模型[A];第十届中国科协年会论文集(一)[C];2008年
5 张永生;魏新军;颜振敏;南海娟;;多元线性回归分光光度法同时测定饮料中三种色素[A];第十届中国科协年会论文集(三)[C];2008年
6 王治敏;俞士汶;;人称代词和名词的歧义消解研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
8 王永春;;一种复合的支持向量机模型在电力系统短期负荷中的应用[A];第十届全国电工数学学术年会论文集[C];2005年
9 谭斌;;指代消解的原理和实现方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
10 吴烜;沙明;李智毅;;支持向量机算法诊断测厚仪CS值电压自动漂移故障分析[A];全国冶金自动化信息网2011年年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
3 李鹤喜;基于视觉反馈的焊接机器人自主示教关键技术研究[D];华南理工大学;2010年
4 郑光辉;江苏部分地区土壤属性高光谱定量估算研究[D];南京大学;2011年
5 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
6 李锦卫;基于计算机视觉的水稻、油菜叶色—氮营养诊断机理与建模[D];湖南农业大学;2010年
7 卢惠民;自主移动机器人全向视觉系统研究[D];国防科学技术大学;2010年
8 刘春波;统计建模方法的理论研究及应用[D];江南大学;2011年
9 田毅;电动汽车运行状态识别及HEV控制策略研究[D];北京交通大学;2010年
10 张胜利;蛋白质与RNA中的若干问题研究[D];大连理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
2 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
3 李光远;基于在线聚类和最小二乘支持向量机的模糊建模方法研究[D];郑州大学;2010年
4 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
5 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
6 刘玲玲;PID参数整定技术的研究及应用[D];郑州大学;2010年
7 王硕;基于小波变换的动态纹理分类[D];哈尔滨工程大学;2010年
8 李林;基于可靠性的TBM刀盘轻量化设计[D];大连理工大学;2010年
9 李慧;基于粗糙集理论的连续属性离散化算法研究[D];辽宁师范大学;2010年
10 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
3 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 王跃龙;姬东鸿;;汉语树库综述[J];当代语言学;2009年01期
6 洪田玉;陈志刚;;一种跨语言的自动摘要技术[J];电脑与信息技术;2009年04期
7 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
8 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
9 张筱丹;胡学钢;;基于向量空间模型的自动摘要冗余处理研究[J];合肥工业大学学报(自然科学版);2010年09期
10 田然;近二十年汉语语篇研究述评[J];汉语学习;2005年01期
中国重要会议论文全文数据库 前1条
1 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前5条
1 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
2 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
3 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
4 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
5 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
中国硕士学位论文全文数据库 前10条
1 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年
2 杨洋;基于SVM的确定性中文依存关系解析[D];大连理工大学;2006年
3 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
4 杨勇;基于特征向量的名词短语指代消解研究[D];苏州大学;2008年
5 王利局;基于语义分析树核的句子相似度计算[D];大连理工大学;2008年
6 金可佳;统计与规则相结合的指代消解[D];武汉科技大学;2009年
7 徐超;基于DOM的网页净化方法研究[D];中国石油大学;2009年
8 胡乃全;基于特征向量的中文指代消解研究与系统实现[D];苏州大学;2009年
9 许晓丽;面向信息抽取的中文命名实体识别研究[D];哈尔滨工程大学;2009年
10 张骥;基于核函数的中文实体关系抽取新方法[D];天津大学;2009年
【二级引证文献】
中国期刊全文数据库 前2条
1 陈鹏;郭剑毅;余正涛;线岩团;严馨;魏斯超;;基于凸组合核函数的中文领域实体关系抽取[J];中文信息学报;2013年05期
2 徐凡;朱巧明;周国栋;王明文;;衔接性驱动的篇章一致性建模研究[J];中文信息学报;2014年03期
中国硕士学位论文全文数据库 前2条
1 李红亮;基于规则的百科人物属性抽取算法的研究[D];西南交通大学;2013年
2 徐斌;特定实体关系的识别和抽取及其系统的设计与实现[D];华南理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
2 钱伟,郭以昆,周雅倩,吴立德;基于最大熵模型的英文名词短语指代消解[J];计算机研究与发展;2003年09期
3 刘海军,黄河燕,陈肇雄;智能机器翻译系统中的语境处理[J];计算机研究与发展;1998年04期
4 王厚峰;;句类中E块的作用及其判定策略[J];计算机科学;2000年05期
5 李国臣,段建勇;基于模糊集的名词细分类研究[J];计算机工程;2004年01期
6 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
7 王凌飞,张玉敏,李堂秋;汉英机译系统中指代的确定 [J];计算机应用研究;2000年09期
8 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
9 张 威,周昌乐;汉语语篇理解中元指代消解初步[J];软件学报;2002年04期
10 许敏,王能忠,马彦华;汉语中指代问题的研究及讨论[J];西南师范大学学报(自然科学版);1999年06期
【相似文献】
中国期刊全文数据库 前10条
1 孔芳;朱巧明;周国栋;钱培德;;基于中心理论的指代消解研究[J];计算机科学;2009年06期
2 陶明忠;马玉蕾;;框架网络与汉语信息处理[J];语言文字应用;2007年04期
3 贾君枝;赵文娟;王东元;;汉语框架网络知识库的语义角色特征识别[J];图书情报工作;2009年17期
4 周明海;亢世勇;刘金凤;;面向信息处理的大规模句子语义知识库研究述要[J];当代外语研究;2011年10期
5 李良富,樊孝忠,李宏乔;语义相似计算驱动领域自动问答[J];北京理工大学学报;2005年11期
6 杨选选;张蕾;;基于语义角色和概念图的信息抽取模型[J];计算机应用;2010年02期
7 赵文娟;闫红梅;王蔚林;;基于汉语框架网的语义角色标注算法[J];图书情报工作;2011年06期
8 刘焘;贾君枝;;中文信息处理中的语义关系表示探析[J];现代图书情报技术;2006年10期
9 董振东;董强;郝长伶;;知网的理论发现[J];中文信息学报;2007年04期
10 王海东;胡乃全;孔芳;周国栋;;指代消解中语义角色特征的研究[J];中文信息学报;2009年01期
中国重要会议论文全文数据库 前10条
1 杨敏;常宝宝;;基于北大网库的语义角色分类[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 王步康;王红玲;袁晓虹;周国栋;;基于树核函数的中文语义角色标注研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 吾买尔江·库尔班;阿里甫·库尔班;;维吾尔语框架语义知识库语义角色描述体系研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 王鑫;穗志方;李芸;;基于依存树距离的语义角色识别方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 周明海;亢世勇;;语义角色句法实现的词汇语义制约信息库的建设及其应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 李琳;毕玉德;陈洁;;朝鲜语对格的语义角色分析[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 王荣洋;鞠久朋;李寿山;周国栋;;基于CRFs的评价对象抽取特征研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 殷国光;华建光;;《庄子》动词配价研究[A];和谐社会:社会建设与改革创新——2007学术前沿论丛(下卷)[C];2007年
9 王鑫;孙薇薇;穗志方;;基于浅层句法分析的中文语义角色标注研究[A];第六届全国信息检索学术会议论文集[C];2010年
10 范开泰;由丽萍;刘开瑛;;汉语框架语义分析系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前1条
1 记者 向杰;汉王捐赠百万设立“青年创新奖”[N];科技日报;2011年
中国博士学位论文全文数据库 前10条
1 包晓荣;基于语料库的蒙古语简单句施事和当事语义角色特征研究[D];内蒙古大学;2013年
2 李济洪;汉语框架语义角色的自动标注技术研究[D];山西大学;2010年
3 袁冬;基于海量文本的语义构建方法研究[D];中国海洋大学;2012年
4 张占山;语义角色视角下的谓词同义词辨析[D];厦门大学;2006年
5 孔芳;指代消解关键问题研究[D];苏州大学;2009年
6 权震红;韩国语非叙述性名词配价研究[D];延边大学;2007年
7 周日安;名名组合的句法语义研究[D];暨南大学;2007年
8 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
9 潘泰;现代汉语移动义动词的句法语义研究[D];华中师范大学;2009年
10 张志昌;开放域阅读理解关键技术研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 颜廷义;基于条件场的语义角色标注[D];北京邮电大学;2010年
2 张超辉;中文复杂句语义角色标注[D];北京邮电大学;2010年
3 李永强;基于马尔可夫逻辑网络的语义角色标注[D];哈尔滨工业大学;2010年
4 伊好斯白音;蒙古语名词短语语义角色的统计分析研究[D];内蒙古大学;2012年
5 白龙飞;基于依存树的中文语义角色标注技术研究[D];东北大学;2013年
6 袁晓虹;基于依存关系的中文语义角色标注研究[D];苏州大学;2010年
7 吴方磊;基于树核方法的中文语义角色标注研究[D];苏州大学;2011年
8 路青;基于特征选择的中文语义角色标注研究[D];曲阜师范大学;2012年
9 陈红霞;从比格形式名词的语义角色辨析研究[D];内蒙古大学;2012年
10 白雪;基于结构学习的语义角色标注[D];北京邮电大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026