收藏本站
《北京大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

融合语义和句型信息的中文句法分析方法研究与实现

张耀中  
【摘要】: 句法分析是自然语言处理领域一项重要的基础性研究工作。它能够发现自然语言中内在的语法结构,是进行高层信息处理和自然语言理解的基石。其中,基于上下文无关文法(PCFG)的句法分析方法一直是该领域研究的主流。 本文在PCFG模型的基础上,提出了一种引入中文语义和句型信息的方法,解决了PCFG模型缺少语义信息及文法之缺少全局约束的问题,改进了中文句法分析器的性能。 首先,在句法分析中融入语义信息。尝试在非词汇化句法分析方法中融入语义信息,利用语义信息帮助句法分析进行消歧。加入语义信息后,句法分析器的性能在宾大中文树库(CTB)标划分准集上F值提高了1.37%达到了81.63%1。该方法除了能解决中文里常见的一些歧义外,还能从句法分析的结果中获得带有句法约束的语义信息。 其次,在句法分析中融入句型信息。根据句法树和文法之间共现的关系,对句型信息进行建模。利用这种句型信息对句法分析的结果进行约束,纠正了基线系统在清华树库上一些句型标记的错误,F值提高了0.17%达到了86.57%1。
【关键词】:句法分析 概率上下文无关文法 语义 句型 概率潜语义分析(PLSA)
【学位授予单位】:北京大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1
【目录】:
  • 摘要2-3
  • ABSTRACT3-8
  • 第一章 序言8-13
  • 1.1 研究的问题8-9
  • 1.2 问题难点9-10
  • 1.3 研究历史与现状10-11
  • 1.4 研究意义及应用前景11
  • 1.5 本文的研究思路和主要工作11-12
  • 1.6 各章节安排12-13
  • 第二章 统计句法分析系统概述13-25
  • 2.1 文法的建模13-17
  • 2.1.1 乔姆斯基层级体系13-14
  • 2.1.2 人类语言的特点14-15
  • 2.1.3 概率上下文无关文法15-17
  • 2.2 文法概率的获得(训练)17-19
  • 2.2.1 有监督的训练方法17-18
  • 2.2.2 无监督的训练方法18-19
  • 2.3 句法分析(解码)19-21
  • 2.4 句法分析评价标准21-22
  • 2.5 PCFG 基本模型的改进22-25
  • 2.5.1 引入词汇化信息的 PCFG22-24
  • 2.5.2 非词汇化 PCFG 模型24-25
  • 第三章 融合语义信息的中文句法分析25-36
  • 3.1 语义25
  • 3.2 句法和语义的关系25-26
  • 3.3 中文语义信息对句法分析的影响26-27
  • 3.4 先前的工作27-28
  • 3.5 本文的思路28-29
  • 3.6 实现方法29-30
  • 3.7 实验30-35
  • 3.7.1 语料30
  • 3.7.2 基线系统及评测标准30
  • 3.7.3 实验结果及分析30-35
  • 3.8 小结35-36
  • 第四章 融合句型信息的中文句法分析36-47
  • 4.1 句型36
  • 4.2 概率潜语义分析模型36-39
  • 4.2.1 潜语义分析方法37
  • 4.2.2 PLSA 模型介绍37-38
  • 4.2.3 PLSA 模型训练38-39
  • 4.3 句型信息建模39-40
  • 4.4 句型信息的融合40-42
  • 4.5 实验及分析42-46
  • 4.5.1 语料42
  • 4.5.2 基线系统42-43
  • 4.5.3 融入句型信息的句法分析实验43-46
  • 4.6 小结46-47
  • 第五章 工作总结和展望47-49
  • 5.1 工作总结47-48
  • 5.2 未来工作展望48-49
  • 参考文献49-52
  • 致谢52-53

【参考文献】
中国期刊全文数据库 前3条
1 石晶;戴国忠;;基于PLSA模型的文本分割[J];计算机研究与发展;2007年02期
2 孟遥;李生;赵铁军;杨沐昀;;基于统计的句法分析技术综述[J];计算机科学;2003年09期
3 周强;汉语句法树库标注体系[J];中文信息学报;2004年04期
【共引文献】
中国期刊全文数据库 前10条
1 丁俊苗;;不足与需要:论标点符号的语法功能[J];安徽大学学报(哲学社会科学版);2008年04期
2 李龙澍;;PROLOG线性归结的研究与设计[J];安徽大学学报(自然科学版);1997年03期
3 程玉胜,任广永;基于ROUGH集的决策树测试属性选择方法[J];安庆师范学院学报(自然科学版);2004年04期
4 程玉胜;Rosetta实验系统在机器学习中的应用[J];安庆师范学院学报(自然科学版);2005年02期
5 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
6 吴华;徐甜;;机器翻译中源语分析的研究与探讨[J];安阳工学院学报;2006年02期
7 金纯;浅谈计算机自然语言理解[J];浙江中医学院学报;2005年03期
8 魏顺平;;2010年度教育技术(远程教育)研究进展调查与分析[J];北京广播电视大学学报;2011年05期
9 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
10 黄昌宁;李玉梅;;从树库的实践看句本位和中心词分析法的生命力[J];北京师范大学学报(社会科学版);2010年05期
中国重要会议论文全文数据库 前10条
1 通拉嘎;赵小兵;;论蒙古语词素切分的实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李艳娇;杨尔弘;;树库中的歧义组合考察[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 宋彦;黄昌宁;揭春雨;;中文CCG树库的构建[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 周强;王俊俊;陈丽欧;;构建大规模的汉语事件知识库[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 刘凯;王志洋;于惠;孙萌;宋林峰;李佳正;何晋一;孟凡东;刘洋;吕雅娟;刘群;;2011全国机器翻译研讨会计算所系统描述[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
6 高秀恒;钱红兵;;一种基于Agent增强的软件审查过程模型[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 段永强;马亚平;王世文;;基于智能模板的文图互生自动转换的研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
8 任玉辉;张涛;柏庆岩;钱学明;张东平;王云川;;轧钢加热炉加热过程最优控制与智能系统的开发与应用[A];2005中国钢铁年会论文集(第4卷)[C];2005年
9 陶钧;朱学其;林文喜;;高炉配料自动控制方法研究[A];2008年全国炼铁生产技术会议暨炼铁年会文集(下册)[C];2008年
10 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 郑军红;基于知识工程的智能夹具设计系统构建研究[D];浙江大学;2010年
3 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
4 江悦;场景图像内容表述和分类研究[D];国防科学技术大学;2010年
5 许有军;基于扩展规则的若干SAT问题研究[D];吉林大学;2011年
6 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
7 马丽娜;模糊推理方法及知识推理的计量化研究[D];陕西师范大学;2011年
8 胡明娣;逻辑度量空间的内蕴结构的研究[D];陕西师范大学;2011年
9 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
10 缪鹍;公(铁)工程三维选线的群智能算法研究[D];中南大学;2011年
中国硕士学位论文全文数据库 前10条
1 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
2 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
3 朱谦成;基于CLIPS的注塑模具方案智能设计研究及程序实现[D];湘潭大学;2010年
4 徐旭;基于决策树的Web应用系统个性化身份验证研究[D];合肥工业大学;2010年
5 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
6 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
7 林良健;电网调度智能防误系统研究[D];华南理工大学;2010年
8 万亚楠;基于SAP系统的两票防误系统的研发与应用[D];华南理工大学;2010年
9 刘金凤;面向自然语言处理的汉语句子语义知识库构建研究[D];鲁东大学;2009年
10 曾睿;基于案例推理的突发大气污染事件应急支持系统的研究[D];昆明理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前2条
1 戴浩一;概念结构与非自主性语法:汉语语法概念系统初探[J];当代语言学;2002年01期
2 周强,张伟,俞士汶;汉语树库的构建[J];中文信息学报;1997年04期
中国重要会议论文全文数据库 前1条
1 周强;;汉语句法知识的自动获取研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 杨思春,陈家骏;汉语自动句法分析中结构歧义分析与研究[J];昆明理工大学学报(理工版);2005年02期
2 邵银波,贺玲,秦江敏;BMP神经网络在句法分析中的运用[J];空军雷达学院学报;2000年04期
3 段建勇;李俊;张梅;马礼;;限定领域的自动问答系统研究[J];北方工业大学学报;2010年01期
4 王鹏,戴新宇,陈家骏,王启祥;基于规则的汉语句法分析方法研究[J];计算机工程与应用;2003年29期
5 吴华;徐甜;;机器翻译中源语分析的研究与探讨[J];安阳工学院学报;2006年02期
6 亓超;张美娜;迟呈英;战学刚;;基于合一的链接文法[J];计算机应用与软件;2008年04期
7 王立群;;依存关系正确理解的基础上的日中翻译[J];电脑知识与技术;2009年28期
8 仲其智;姚建民;;低频词的中文词性标注研究[J];计算机应用与软件;2011年03期
9 王顺迁;叶大兴;;一个并行属性计值算法[J];同济大学学报(自然科学版);1990年04期
10 宋柔,王鑫;自然语言句法分析的顺序控制算法[J];软件学报;1992年02期
中国重要会议论文全文数据库 前10条
1 斯·劳格劳;华沙宝;萨如拉;;基于统计方法的蒙古语依存句法分析模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 陈劲光;何婷婷;李芳;桂卓民;;基于概率和句法分析的中文句子修剪[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 王丹;姬东鸿;黄玮;;一种基于MIRA和遗传算法的句法分析模型构造方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 才藏太;;基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 张晓甜;赵海;;基于树结构模式挖掘的非监督中文短语结构句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 赵铁军;李生;孟遥;黄玉;杨沐昀;;机器翻译系统中句法分析技术的研究实践[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 张浩;刘群;白硕;;结构上下文相关的概率句法分析[A];第一届学生计算语言学研讨会论文集[C];2002年
9 冯娟娟;李晗静;李生;;基于句法分析的中文语义角色标注实现[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 曹海龙;孟遥;李生;赵铁军;;一个改进的头驱动英语句法分析模型[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
中国重要报纸全文数据库 前9条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 李琨;IBM百度共拓企业搜索[N];中国计算机报;2006年
3 记者 潘竑;企业搜索:激活被遗忘的信息财富[N];金融时报;2006年
4 本报记者 霍立峰;中科院免费大餐怎么吃[N];中国高新技术产业导报;2002年
5 北京京华英语学校 张占杰;英语培训切勿陷入“名师”误区[N];北京人才市场报;2005年
6 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
7 清华大学外语系 许建平;2005年考研英语阅读、翻译备考要点[N];中国教育报;2004年
8 ;句法语文学科召开工作研讨会[N];中国社会科学院院报;2003年
9 高安市村前中学 龚铁梅;培养学生的英语自学能力[N];宜春日报;2011年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
3 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
4 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
5 唐秀玲;论话题及其在汉语语法分析中的应用[D];上海师范大学;1997年
6 徐艳华;现代汉语实词语法功能考察及词类体系重构[D];南京师范大学;2006年
7 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
8 洪淼;现代汉语连动结构研究[D];南京师范大学;2004年
9 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
10 申敬善;现代汉语“在”字句研究[D];复旦大学;2006年
中国硕士学位论文全文数据库 前10条
1 张耀中;融合语义和句型信息的中文句法分析方法研究与实现[D];北京大学;2008年
2 皮晓峰;基于概率上下文无关语法的句法分析研究与实现[D];电子科技大学;2005年
3 刘琍;“程度副词+名词”的语义、语用和句法分析[D];四川师范大学;2005年
4 金天;论汉语及英语中否定歧义的消除[D];广东外语外贸大学;2007年
5 尹鹏;基于SVM的中文组块间依存关系分析[D];大连理工大学;2006年
6 张萍;现代汉语标语语法研究[D];南京师范大学;2006年
7 赵德玉;汉语句法分析技术及其在机器人辅助教育智能接口中的应用研究[D];天津师范大学;2004年
8 顾芸;名词短语移位的句法分析[D];南京师范大学;2006年
9 周吉;自然语言处理及搜索引擎的研究[D];吉林大学;2007年
10 魏蓉;限定领域的基本陈述句句法分析[D];天津师范大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026