收藏本站
《电子科技大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于概率上下文无关语法的句法分析研究与实现

皮晓峰  
【摘要】:本文论述了基于概率的上下文无关语法的句法分析的原理及实现过程。本文首先回顾了自然语言的发展历史和应用范围,同时介绍了句法分析在自然语言中的重要的地位和本文的主要工作。 然后介绍了句法分析的常用的分析方法,并对本文的基于概率的上下文无关语法的句法分析器所采用线图分析法作了重点介绍,分析了这种方法的原理以及优点。 本文的句法分析器是基于概率上下文无关语法的,这种方法是统计分析模型中比较成功的一种模式。在本文的第三章详细介绍了PCFG的排除句子歧义的原理,并用具体实例加以阐述。基于概率的分析,当然最重要的就是概率的提取问题,在本文的第四章给出了提取概率的详细算法及实例,解决了基于概率上下文无关语法的三个重要问题。即采用向内向外算法,在给定一部概率上下文无关语法的前提下,计算句子的概率;采用Viterbi算法,在给定一部概率上下文无关语法以及句子前提下,找出最为可能的分析树。采用向内-向外算法,为语法规则选择概率,使得训练句子的概率最大。 在对真实的句子进行句法分析的时候会遇到很多问题。本文第五章针对一些具体问题提出了一些解决方案,取得了一定的成效。主要有以下几个方面。 1)根据汉语,既缺乏形态变化,又缺乏作为句法标志的黏着成分的外在特征,本文采用了短语本位的思想。 2)针对汉语的具体特点,在本文中设计了预处理系统,系统利用特征词在对句子进行综合分析之前预测句子的句法结构,换句话说,预处理实际上是部分句法分析,它起着导引综合分析的作用,避免了不必要的计算。 3)在本文中针对基于统计句法分析中数据稀疏问题,采取了数据平滑技术,使该问题得以缓解。 4)在汉语中特定的句法范畴与特定词类之间的共现关系,在本文的句法分析器中,句法分析的歧义消解引入这类共现信息。即本文提到的制约法消歧,也就是利用句法、语义等制约条件排除不能满足制约条件的结构,从而达到消歧目的。 在第六章列出了本句法分析器实验结果,并与其它几种统计句法分析模型进行了比较分析。 最后,本文分析了本系统的存在的缺陷及一些改进措施。
【关键词】:线图 句法分析 统计 PCFG
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1
【目录】:
  • 第一章 绪论11-17
  • 1.1 自然语言处理11-14
  • 1.1.1 自然语言处理概述11
  • 1.1.2 自然语言处理所用技术和方法11-12
  • 1.1.3 自然语言处理的主要应用12
  • 1.1.4 自然语言处理的发展历程12-14
  • 1.1.4.1 国外主要成果12-13
  • 1.1.4.2 国内主要成果13-14
  • 1.2 句法分析14-15
  • 1.2.1 句法分析在自然语言处理中的地位14
  • 1.2.2 句法分析发展历程和现状14-15
  • 1.3 本文的主要工作15-17
  • 第二章 句法分析17-27
  • 2.1 句法分析概述17
  • 2.2 句法分析的主要内容与功能17-18
  • 2.2.1 主要内容17
  • 2.2.2 主要功能17-18
  • 2.3 句法分析的主要研究方法18-19
  • 2.3.1 基于规则的方法18
  • 2.3.2 基于统计的方法18-19
  • 2.4 句法分析的分析策略19-20
  • 2.5 线图分析法20-27
  • 2.5.1 概述20
  • 2.5.2 线图的表示方法20-21
  • 2.5.3 线图分析算法21-23
  • 2.5.4 算法分析实例23-27
  • 第三章 基于概率的上下文无关的句法分析27-40
  • 3.1 基于统计的句法分析27-29
  • 3.1.1 概述27-28
  • 3.1.2 统计句法分析中的概率模型28-29
  • 3.2 语料库和统计句法分析的处理技术29-30
  • 3.2.1 基本思想29
  • 3.2.2 语料库的基本特征29
  • 3.2.3 语料库具有的优势29-30
  • 3.3 基于概率的上下文无关语法30-40
  • 3.3.1 概述30
  • 3.3.2 原理介绍30-32
  • 3.3.3 实例32-34
  • 3.3.4 PCFG 三个假设34-35
  • 3.3.5 PCFG 排歧原理35-38
  • 3.3.6 PCFG 与N 元模型和上下文法的比较38-40
  • 3.3.6.1 与N 元语法模型比较38-39
  • 3.3.6.2 与上下文无关语法的比较39-40
  • 第四章 概率的提取40-49
  • 4.1 三个基本问题40
  • 4.2 向内算法40-41
  • 4.2.1 算法描述40-41
  • 4.2.2 实例41
  • 4.3 Viterbi 算法41-43
  • 4.3.1 算法描述41-42
  • 4.3.2 实例42-43
  • 4.4 向内-向外算法43-44
  • 4.4.1 算法描述43-44
  • 4.4.2 实例44
  • 4.5 规则的概率提取44-49
  • 4.5.1 概述44-47
  • 4.5.2 算法的过程描述47
  • 4.5.3 实验结果47-49
  • 第五章 具体问题49-63
  • 5.1 短语本位49-51
  • 5.2 预处理问题51-55
  • 5.2.1 预处理的目的和好处51
  • 5.2.2 本系统所涉及的特征词词类51-52
  • 5.2.3 附近词的属性的判定52
  • 5.2.4 片语的优先权52-53
  • 5.2.5 预处理算法53-54
  • 5.2.5.1 算法描述53
  • 5.2.5.2 预处理的流程图53-54
  • 5.2.6 具体实例54-55
  • 5.3 零概率问题55-57
  • 5.3.1 问题的提出55-56
  • 5.3.2 采用平滑技术解决零概率问题56-57
  • 5.3.2.1 Good-Turing 平滑在PCFG 中的应用56-57
  • 5.3.2.2 Good-Turing 平滑应用在PCFG 中的问题及改进57
  • 5.4 制约法消歧57-61
  • 5.4.1 概述58
  • 5.4.2 制约消歧方法58-60
  • 5.4.3 制约消歧框图60-61
  • 5.5 句法分析器的流程图61-63
  • 第六章 实验结果与分析63-68
  • 6.1 实验前提63-64
  • 6.2 实验结果64-65
  • 6.3 与其它模型的性能比较65-68
  • 6.3.1 评价方法65-66
  • 6.3.2 两种基本模型的实现过程66
  • 6.3.3 实验结果与分析66-67
  • 6.3.4 两种模型的评价67-68
  • 第七章 本系统的缺陷及改进68-71
  • 7.1 规则和统计的结合68
  • 7.2 上下文下相关68-69
  • 7.3 在句法分析器中加入中心谓语动词的确定69-70
  • 7.4 句法分析规则中嵌入语义分析排歧机制70-71
  • 参考文献71-74
  • 致谢74-75
  • 攻读硕士期间的研究成果及发表的学术论文75

【引证文献】
中国硕士学位论文全文数据库 前2条
1 郭鹏;汉语语法语料库系统的基础设计[D];天津师范大学;2006年
2 周俏丽;面向汉语单句的依存句法分析研究[D];沈阳航空工业学院;2006年
【共引文献】
中国期刊全文数据库 前10条
1 王海燕;;方言分区语言外部标准应用的个案考察——以泗洪方言为例[J];常熟理工学院学报;2010年09期
2 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
3 陆丙甫;从“短语本位”看“词”的地位和判别——谈必须给“词”在句法分析中留有一席之地[J];汉语学习;1992年02期
4 关虹;基于语料库的法语语言能力评价[J];解放军外国语学院学报;2004年06期
5 张少恩;;论语境因素在机器翻译中的重要作用[J];农业网络信息;2008年07期
6 严峻;;论语言学与现代自然科学的关系[J];南京工业职业技术学院学报;2010年03期
7 夏景峰,李必旺;面向自然语言查询的单汉字检索系统[J];情报学报;1995年06期
8 郭曙纶;汉语计算语义理论及其原则[J];韶关学院学报(自然科学版);2002年06期
9 许庆欣;;词汇语法拼写校对软件——功能语法的应用实例[J];天津外国语学院学报;2007年02期
10 黄人杰;英语自动语法分析与AGTS系统[J];外语教学与研究;1992年03期
中国博士学位论文全文数据库 前10条
1 张蕾;概念结构及其应用[D];西北工业大学;2001年
2 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
3 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
4 宋继平;面向机器翻译的双语信息处理系统的设计与实现[D];中国科学院研究生院(计算技术研究所);1999年
5 夏云庆;IHSMTS系统中启发式类比翻译处理机制(HATM)的设计与实现[D];中国科学院研究生院(计算技术研究所);2001年
6 王建德;IHSMTS中面向对象智能型实例模式库的设计与实现[D];中国科学院研究生院(计算技术研究所);2001年
7 胡春玲;人机互动的多策略机器翻译系统中跟踪记忆机制的研究[D];中国科学院研究生院(计算技术研究所);2000年
8 涂明君;程序化的哲学阐释[D];中国人民大学;2008年
9 孙锐欣;元音的实验和计算研究[D];复旦大学;2008年
10 骆琳;面向计算机的现代汉语“得”字研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
2 赵小曼;英汉平行语料库句子级对齐研究及其在机器翻译中的应用[D];安徽大学;2010年
3 易力;基于观点挖掘的产品可用性建模与评价[D];上海交通大学;2012年
4 韩习武;机器翻译中语义因素的理论分析[D];黑龙江大学;2001年
5 黄元萃;汉语基本名词短语的自动识别模型[D];大连理工大学;2001年
6 濮淼清;水情电报翻译研究[D];河海大学;2001年
7 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
8 史瑞耘;论机器翻译的语义分析方法[D];哈尔滨工程大学;2004年
9 柴欣;基于人工智能的模型库人机接口研究[D];东华大学;2007年
10 王莹;基于错误驱动的汉语词性标注研究[D];北京邮电大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
2 陆俭明;词的具体意义对句子意思理解的影响[J];汉语学习;2004年02期
3 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
4 齐丙辰,大川善邦,高平;现代教育技术的新领域──机器人辅助教育[J];机器人技术与应用;2000年01期
5 陈宣,孔骏,陈玉泉,陆汝占;基于概率上下文无关文法的句法分析歧义消解新模式[J];计算机工程;2002年02期
6 蔡义发;自然语言理解的研究与发展[J];计算机应用与软件;1992年03期
7 杨晓峰,李堂秋,洪青阳;基于实例的汉语句法结构分析歧义消解[J];中文信息学报;2001年03期
8 龚小谨,罗振声,骆卫华;汉语句子谓语中心词的自动识别[J];中文信息学报;2003年02期
9 李国臣,孟静;利用主语和谓语的句法关系识别谓语中心词[J];中文信息学报;2005年01期
10 罗振声,郑碧霞;汉语句型自动分析和分布统计算法与策略的研究[J];中文信息学报;1994年02期
中国重要会议论文全文数据库 前1条
1 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前2条
1 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
2 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前6条
1 吴雪敏;汉语语句的计算机分析[D];电子科技大学;2001年
2 朱钦隽;计算机汉语理解的初步实践[D];电子科技大学;2001年
3 詹思瑜;自然语言的计算机处理模型[D];电子科技大学;2003年
4 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
5 段恩泽;基于统计的汉语自动分词系统[D];电子科技大学;2005年
6 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
【二级引证文献】
中国博士学位论文全文数据库 前2条
1 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
2 包晓荣;基于语料库的蒙古语简单句施事和当事语义角色特征研究[D];内蒙古大学;2013年
中国硕士学位论文全文数据库 前4条
1 耿爱媛;基于GA-BP神经网络的智能评语生成的研究[D];天津财经大学;2011年
2 景娟;中文话费文语转换系统的研究与实现[D];中南大学;2011年
3 田雨;自然语言理解在湖水清污机器人中的应用[D];沈阳理工大学;2008年
4 赵伟;基于Web检索的小型学习资源语料库的建设[D];西安电子科技大学;2013年
【相似文献】
中国期刊全文数据库 前10条
1 龚纪文,许德如;利用Access97编制科技论文登记及统计数据库[J];华东地质学院学报;2001年01期
2 徐汀荣;统计查询完备化的算法设计与实现[J];微机发展;1992年03期
3 孔繁民,姬爱敏;统计中的查找计数方法[J];郑州轻工业学院学报(自然科学版);1992年03期
4 罗守进,冒晓斌;RAPD文献分布的探讨[J];农业图书情报学刊;1997年S1期
5 刘淑华,傅晓琴,张君晓;1995~1999年《华南理工大学学报》统计与分析[J];华南理工大学学报(自然科学版);1999年12期
6 罗永龙,殷治国;CBMS的性能及设计与开发[J];安庆师范学院学报(自然科学版);2000年01期
7 邓春燕;谈谈数据库多项目的快速统计[J];河池师专学报;2001年02期
8 易东,严中洪,王文昌;用Excel制作统计随机抽样教学课件[J];重庆工业高等专科学校学报;2002年02期
9 涂海青,黄孝群,张红亚;《常熟高专学报》引文统计分析[J];常熟高专学报;2002年05期
10 刘树梅;我国政府R&D经费投入状况研究[J];科技管理研究;2002年02期
中国重要会议论文全文数据库 前10条
1 斯·劳格劳;华沙宝;萨如拉;;基于统计方法的蒙古语依存句法分析模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 邢少伟;朱天答;杨河洲;;汽车造型效果图、线图、模型之间的转换关系及方法[A];经济策论(下)[C];2011年
4 陈劲光;何婷婷;李芳;桂卓民;;基于概率和句法分析的中文句子修剪[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 王丹;姬东鸿;黄玮;;一种基于MIRA和遗传算法的句法分析模型构造方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 才藏太;;基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 张晓甜;赵海;;基于树结构模式挖掘的非监督中文短语结构句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 赵铁军;李生;孟遥;黄玉;杨沐昀;;机器翻译系统中句法分析技术的研究实践[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 张浩;刘群;白硕;;结构上下文相关的概率句法分析[A];第一届学生计算语言学研讨会论文集[C];2002年
10 曹海龙;孟遥;李生;赵铁军;;一个改进的头驱动英语句法分析模型[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 记者 佘峥;全市中小学都将有红线图[N];厦门日报;2010年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
3 戴莹 楚学朋;手握利器灭“四害”[N];中国石化报;2011年
4 上海世基 黄永东 西南证券 赵波 北京首证 董旭海 倍新咨询 严为民 深圳海询 江启堂;再度破位 还有何处可退?[N];重庆商报;2000年
5 李琨;IBM百度共拓企业搜索[N];中国计算机报;2006年
6 孔伟;均线胶着之后……[N];山西经济日报;2002年
7 记者 潘竑;企业搜索:激活被遗忘的信息财富[N];金融时报;2006年
8 黄家坚;K线小连阳 黑马初长成[N];江苏经济报;2001年
9 黄家坚;主力护盘的特征[N];江苏经济报;2000年
10 张军;K线的综合分析[N];财经时报;2002年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 李正华;汉语依存句法分析关键技术研究[D];哈尔滨工业大学;2013年
3 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
4 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
5 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
6 赵霆雷;线图与若干典型图类的交叉数研究[D];湖南师范大学;2006年
7 吕连忠;类星体多谱勒红移研究[D];中国科学院研究生院(云南天文台);2007年
8 张富文;伽玛暴脉冲时变特征及其对能量的依赖[D];中国科学院研究生院(云南天文台);2008年
9 安新慧;图中的哈密顿圈和图的列表线性荫度[D];新疆大学;2008年
10 唐秀玲;论话题及其在汉语语法分析中的应用[D];上海师范大学;1997年
中国硕士学位论文全文数据库 前10条
1 皮晓峰;基于概率上下文无关语法的句法分析研究与实现[D];电子科技大学;2005年
2 刘琍;“程度副词+名词”的语义、语用和句法分析[D];四川师范大学;2005年
3 金天;论汉语及英语中否定歧义的消除[D];广东外语外贸大学;2007年
4 尹鹏;基于SVM的中文组块间依存关系分析[D];大连理工大学;2006年
5 张萍;现代汉语标语语法研究[D];南京师范大学;2006年
6 赵德玉;汉语句法分析技术及其在机器人辅助教育智能接口中的应用研究[D];天津师范大学;2004年
7 顾芸;名词短语移位的句法分析[D];南京师范大学;2006年
8 周吉;自然语言处理及搜索引擎的研究[D];吉林大学;2007年
9 魏蓉;限定领域的基本陈述句句法分析[D];天津师范大学;2008年
10 张耀中;融合语义和句型信息的中文句法分析方法研究与实现[D];北京大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026