面向汉语单句的依存句法分析研究
【摘要】:句法分析是衔接自然语言理解中词法分析与语义分析的桥梁,在自然语言理解中具有至关重要的作用。在自然语言分析中,传统的基于规则的方法和近年来兴起的基于统计的方法各有利弊,如何把二者有机的结合起来,以提高分析器的处理能力,是当前计算语言学的重要课题。同时,句法结构歧义现象也成为了制约句法分析的巨大障碍。
针对上述问题,本文对国内外句法分析和结构歧义消解展开了较为全面的调研。提出了一种规则与统计相结合的汉语依存句法分析模型。该模型的主要特点是把句法分析分为不同的阶段,第一个阶段是组块分析;第二个阶段是组块内依存关系分析;第三个阶段是组块间依存关系分析。并针对每个阶段所要解决问题的不同特点运用相应的规则和统计方法进行处理。为了实现上述分析策略,本文在以下几个方面展开了研究:
1、词间长距离依存现象分析。在任何语言中,词语间的长距离依存现象都是普遍存在的。我们通过对汉语单句的句法和语义的分析,发现长距离依存词对,在此基础上制定了用于识别长距离依存关系的依存模板。
2、句法结构歧义消解。提出了以下的句法结构歧义消解策略。
1)针对全体句法结构歧义的一般消解策略。在本文的句法分析中,每个阶段问题的处理都会遇到句法结构歧义问题。在已有规则不能消解的情况下,作为一种通用消解策略,我们提出运用改进的T检验方法来计算词语之间的搭配信息,并以此来实现句法结构歧义的消解。
2)针对特定句法结构歧义的特定消解策略。为了更好的解决句法结构歧义问题,本文针对汉语句法结构歧义中最常的“动+名1+的+名2”歧义结构,进行了深入的研究和探讨,提出了基于知网和基于最大熵的歧义消解方法。综上所述,本文将句法分析分解为几个不同阶段进行研究,针对不同阶段的问题分别使用相应的规则与统计的方法,即减少了规则冲突,又加强了统计分析的针对性,从而有效地提高了句法分析的正确率。句法分析的关键问题是歧义结构的处理,我们针对不同歧义结构,采用了通用消解策略和特定消解策略相结合
的方法,并取得了较好的实验结果。对于典型的“动+名1+的+名2”歧义结构,基于知网和基于最大熵的歧义消解方法都达到了80%以上的正确率。
【关键词】:句法分析 句法结构歧义 歧义消解 长距离依存 组块分析 【学位授予单位】:沈阳航空工业学院
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1
【DOI】:CNKI:CDMD:2.2007.067391
【目录】:
- 摘要5-7
- Abstract7-13
- 第一章 绪论13-19
- 1.1 句法分析和句法分析树13-14
- 1.2 课题的提出和意义14-17
- 1.2.1 面向单句15
- 1.2.2 依存文法15-16
- 1.2.3 采用规则与统计相结合的方法16-17
- 1.3 本文的工作17-18
- 1.4 论文的组织18-19
- 第二章 研究方法综述19-29
- 2.1 句法分析技术回顾19-23
- 2.1.1 基于规则的句法分析19-21
- 2.1.2 基于语料库的句法分析21-23
- 2.1.3 规则与统计相结合的句法分析23
- 2.2 句法结构歧义消解23-27
- 2.2.1 基于规则的方式消除歧义24-25
- 2.2.2 基于概率上下文无关文法的句法分析歧义消解25-26
- 2.2.3 统计与规则相结合的歧义消解26
- 2.2.4 基于实例的汉语句法结构分析歧义消解26-27
- 2.3 长距离依存分析27-28
- 2.4 本章小结28-29
- 第三章 单句内长距离依存现象分析29-36
- 3.1 依存语法简介29-30
- 3.2 词汇语义间的长距离依存分析30-31
- 3.2.1 固定搭配词对之间的依存关系30-31
- 3.2.2 指示代词短语与数量词短语31
- 3.3 句子成分间的长距离依存关系分析31-35
- 3.2.1 介词与谓词的依存关系32-34
- 3.2.2 其它动词与谓词的依存关系34
- 3.2.3 谓词之间的依存关系34-35
- 3.4 本章小结35-36
- 第四章 面向依存句法分析的谓词识别36-45
- 4.1 谓语中心词识别的整体结构36-37
- 4.2 利用依存模板排除不能成为谓词的词37-38
- 4.3 基于规则进行谓词识别38-39
- 4.3.1 判断句的处理39
- 4.4 基于统计进行谓词识别39-43
- 4.4.1 计算词对间的相关强度系数41-43
- 4.4.2 利用相关强度系数进行谓词识别的过程43
- 4.5 全句中心语的选择43
- 4.6 实验结果和分析43-44
- 4.7 本章小结44-45
- 第五章 句子依存关系的生成45-54
- 5.1 组块分析45-48
- 5.1.1 指定组块识别46-47
- 5.1.2 组块核心词的确定47
- 5.1.3 指定组块识别实验结果及分析47-48
- 5.2 复杂组块内部依存关系分析48-49
- 5.3 组块核心词间依存关系分析49-53
- 5.3.1 基于规则组块间依存关系的分析49-50
- 5.3.2 基本组块间依存关系分析过程50
- 5.3.3 基本组块与复杂组块间分析过程50-52
- 5.3.4 基于统计组块间依存关系的分析52-53
- 5.4 实验结果53
- 5.5 本章小结53-54
- 第六章 基于知网的 VNN结构歧义消解54-63
- 6.1 VNN歧义结构分析54-55
- 6.2 知网简介55
- 6.3 基于知网的语义相似度消歧55-58
- 6.3.1 语义相似度的计算55-57
- 6.3.2 排歧算法的实例说明57-58
- 6.4 基于知网义原分类树的规则消歧58-61
- 6.5 实验结果和分析61-62
- 6.5.1 实验流程61
- 6.5.2 实验结果61
- 6.5.3 结果分析61-62
- 6.6 本章小结62-63
- 第七章 基于最大熵的 VNN结构歧义消解63-71
- 7.1 句法结构消歧中的最大熵模型63-66
- 7.1.1 句法结构消歧中的最大熵模型的建立63-66
- 7.2 句法歧义结构分析66-69
- 7.2.1 句法歧义结构的外部环境分析66-67
- 7.2.2 句法结构消歧中特征的提取67-69
- 7.3 实验结果及分析69-70
- 7.3.1 特征组合对实验的影响69
- 7.3.2 训练语料规模对实验的影响69-70
- 7.4 本章小结70-71
- 结论71-73
- 附录I 汉语词性标注集73-75
- 附录II 依存关系规范75-81
- 附录III 依存模板81-82
- 参考文献82-85
- 攻读硕士期间发表 (含录用)的学术论文85-86
- 致谢86-87
全文下载:
CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载
|
|
|
|
| 1 |
舒鑫柱,杨尔弘;基于HOWNET的汉语组块分析[J];河南职技师院学报;2001年04期 |
| 2 |
张琳琳,宋继平,王能忠;基于核心推导的句法分析[J];西南师范大学学报(自然科学版);1997年03期 |
| 3 |
余正涛,樊孝忠;基于最大熵模型的汉语问句语义组块分析[J];计算机工程;2005年17期 |
| 4 |
徐艳华;陈小荷;;面向自动句法分析的“V+V”结构歧义研究[J];计算机工程与应用;2006年33期 |
| 5 |
刘芳,赵铁军,于浩,杨沐昀,方高林;基于统计的汉语组块分析[J];中文信息学报;2000年06期 |
| 6 |
杨宪泽;自然语言处理的句法分析和规则索引[J];科技通报;2002年06期 |
| 7 |
刘伟权,王明会,钟义信;建立现代汉语依存关系的层次体系[J];中文信息学报;1996年02期 |
| 8 |
杨思春,陈家骏;汉语自动句法分析中结构歧义分析与研究[J];昆明理工大学学报(理工版);2005年02期 |
| 9 |
孟遥,赵铁军,李生;面向机器翻译系统句法分析器的研究与实现[J];黑龙江工程学院学报;2002年03期 |
| 10 |
张敏,罗振声;语料库与知识获取模型[J];中文信息学报;1994年01期 |
|
|
|
|
|
| 1 |
李素建;刘群;;基于混合模型的组块分析技术[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年 |
| 2 |
徐艳华;陈小荷;李斌;陈钟;;面向自动句法分析的现代汉语“V+V”结构歧义研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年 |
| 3 |
赵铁军;李生;孟遥;黄玉;杨沐昀;;机器翻译系统中句法分析技术的研究实践[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年 |
| 4 |
张惠春;由丽萍;谷波;刘开瑛;;面向框架语义分析的汉语句法分析模型[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年 |
| 5 |
张浩;刘群;白硕;;结构上下文相关的概率句法分析[A];第一届学生计算语言学研讨会论文集[C];2002年 |
| 6 |
王治敏;俞士汶;;人称代词和名词的歧义消解研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年 |
| 7 |
曹海龙;孟遥;李生;赵铁军;;一个改进的头驱动英语句法分析模型[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年 |
| 8 |
郭慧志;谢学敏;张普;;抽象名词和组织类名词的限定作用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年 |
| 9 |
张亚旭;刘友谊;舒华;孙茂松;;汉语名动兼类词的句法分析:来自人类阅读实验的证据[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年 |
| 10 |
冯娟娟;李晗静;李生;;基于句法分析的中文语义角色标注实现[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年 |
|