收藏本站
《山东大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于生成性概率模型的句法分析和多文档自动文摘研究

杨潇  
【摘要】: 由于万维网上文本信息的快速增长,自然语言处理作为使计算机得以应用文本形式信息的关键,已成为目前的一个研究热点。本文的工作主要讨论自然语言处理理论研究中的句法分析和应用研究中的多文档自动文摘这两个方面的内容。其中,句法分析是自然语言处理中的关键技术,多文档自动文摘、机器翻译和信息检索等许多自然语言处理的应用研究需要依赖句法分析的结果作为支持;对句法分析的研究也有助于补充对人类语言的认知,因此句法分析的研究具有重要的理论意义和实用价值。多文档自动文摘可以给用户提供简明扼要的概述,帮助用户快速处理文本信息,随着网络上文档数量的飞速增长,多文档自动文摘越来越受到人们的重视。 句法分析的关键问题是对单句对应的多个句法结构进行优选的问题,而自动文摘中的关键问题则是对文档中的多个句子进行优选的问题。本文针对句法结构和句子的优选问题,在国家自然基金和山东省自然基金的资助下,使用生成性的概率模型,分别为句法结构和句子建模,进行句法分析和多文档自动文摘问题的研究。主要包括句法分析中的语法体系、分析算法和分析模型三个方面的研究和多文档自动文摘中句子表示形式和排序方法的研究,并通过实验对研究结果进行了验证和分析。 在句法分析的研究中,提出了一种新的语法体系,研究了该语法体系的分析算法和剪枝规则,并在概率分析模型中融合了新的结构信息。在自动文摘的研究中,提出了一种基于概率主题模型的句子建模方法来挖掘文档集潜在的主题结构,在该主题模型的基础上,进一步研究了句子权重的计算方法和文摘的冗余消除方法。 本文的主要研究内容和创新点包括以下四个方面: 1.提出了一种以词汇组合关系描述语法的二元组合语法体系 由于依存语法可以方便地表达中心词与修饰词之间的依赖关系,比短语结构语法更适于信息检索领域的应用,是当前自然语言处理中语法体系的一个研究热点。但依存语法缺乏内部结构表示,不能显式地表达复杂的句法结构,对语法结构的识别造成一定的障碍。针对语法体系中缺乏短语搭配强度和依存语法研究中缺乏内部结构表示形式造成的复杂结构难以表达的问题,提出了一种通过相邻短语中心词的两两组合来表达句法结构的二元组合语法。在组合关系中引入局部优先级来描述结构之间相对的搭配强度,限制组合次序。二元组合语法中引入的内部节点有利于句法结构的表达和识别,局部优先级表示的短语搭配强度可以限制句法分析中非法结构的生成。 2.提出了一种基于局部优先级的句法分析算法 句法分析算法是句法分析的重要组成部分,它直接影响句法分析的准确性和效率。针对本文提出的二元组合语法,结合语法中定义的局部优先级的限制,提出了一种基于局部优先级的句法分析算法。局部优先级的限制信息融入到二元组合语法的分析算法中后,可以作为分析过程中剪枝的规则。本文对传统的CYK(Cocke,Younger,Kasami)图算法进行改进,提出了一种基于局部优先级的二元组合语法分析图算法,并在人工归纳的语法体系上进行了句法分析实验。结果表明,改进后的CYK图算法在产生树结构的数量和花费的时间上都明显低于传统的CYK算法。 3.提出了一种基于嵌套层次限制的句法分析模型 在概率模型的构建中,如何应用句法结构信息是句法分析建模中需考虑的主要问题。目前考察的信息主要有词汇支配度的信息、依存长度的信息等。修饰词的嵌套层数越多语言越难理解,本文将这种修饰词嵌套层次的信息引入到生成性的概率分析模型中,增强对句法结构的识别能力。在建立了基于局部优先的CYK图算法的基础上,提出了一种融合嵌套层次限制的二元组合语法分析模型。句法分析实验中,将依存格式的树库转换为二元组合语法的形式来构建二元组合语法树库,然后基于该树库自动获取句法关系和优先级信息,并估计嵌套层次模型的参数。在二元组合语法树库上进行汉语句法分析的实验,结果表明,与词汇支配度模型相比,利用嵌套层次限制构造的汉语句法分析模型可以获得更高的分析正确率。实验中也考察了局部优先级限制对分析正确率的影响,结果表明局部优先级和嵌套层次的限制可以有效的避免非法结构的生成。 4.提出了一种基于生成性概率主题模型的多文档自动文摘方法 使用潜狄利克雷分配(Latent Dirichlet Allocation,LDA)模型为句子建模,以捕捉深层次的主题信息。基于模型中主题在词汇上的概率分布p(w|z)和句子在主题上的概率分布p(z|s),提出了概率生成模型和句子生成模型两种句子权重的计算方法,文摘中选择权重较大、且与前面选择的句子主题不重复的句子作为文摘句。实验在DUC2002会议中提供的通用型多文档文摘测试集上进行,以ROUGE自动评测工具作为评测标准。结果表明,与基于词频的文摘模型和其它基于LDA模型的文摘模型相比,本文提出的模型可以获得更好的文摘效果,其中概率生成模型在所有评价标准上均优于其他模型。 本文进一步的工作包括:将组合关系的标签作为上下文纳入到分析算法中,以便于更精确的描述分析算法;在句法分析模型中添加其他有用的结构信息和主题信息的约束,提高句法分析的正确率;在多文档自动文摘方面使用句法主题模型为句子建模,以便同时考虑句法和主题信息,改善文摘效果。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 龚书;瞿有利;田盛丰;;基于维基语义的多文档文摘研究[J];南京大学学报(自然科学版);2011年04期
2 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
3 陈发鸿;;基于核方法的文本极性分类研究[J];海峡科学;2011年08期
4 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
5 许德山;张智雄;赵妍;;中文问句与RDF三元组映射方法研究[J];图书情报工作;2011年06期
6 李思婧;岳泉;;CNKI主题标引分析[J];情报科学;2011年07期
7 李军辉;周国栋;朱巧明;钱培德;;中文名词性谓词语义角色标注[J];软件学报;2011年08期
8 宿建军;张小燕;吐尔洪·吾司曼;李晓;;联合式多引擎维汉机器翻译系统[J];计算机工程;2011年16期
9 朱聪慧;赵铁军;韩习武;郑德权;;基于加权子序列核函数的次范畴论元分析[J];高技术通讯;2010年02期
10 黄亿华;濮小佳;袁春风;武港山;;基于句法树结构的情感评价单元抽取算法[J];计算机应用研究;2011年09期
中国重要会议论文全文数据库 前10条
1 斯·劳格劳;华沙宝;萨如拉;;基于统计方法的蒙古语依存句法分析模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 陈劲光;何婷婷;李芳;桂卓民;;基于概率和句法分析的中文句子修剪[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 王丹;姬东鸿;黄玮;;一种基于MIRA和遗传算法的句法分析模型构造方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 才藏太;;基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 张晓甜;赵海;;基于树结构模式挖掘的非监督中文短语结构句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 赵铁军;李生;孟遥;黄玉;杨沐昀;;机器翻译系统中句法分析技术的研究实践[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
10 张浩;刘群;白硕;;结构上下文相关的概率句法分析[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 李琨;IBM百度共拓企业搜索[N];中国计算机报;2006年
3 记者 潘竑;企业搜索:激活被遗忘的信息财富[N];金融时报;2006年
4 北京京华英语学校 张占杰;英语培训切勿陷入“名师”误区[N];北京人才市场报;2005年
5 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
6 本报记者 霍立峰;中科院免费大餐怎么吃[N];中国高新技术产业导报;2002年
7 清华大学外语系 许建平;2005年考研英语阅读、翻译备考要点[N];中国教育报;2004年
8 ;句法语文学科召开工作研讨会[N];中国社会科学院院报;2003年
9 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
10 张雪峰;信息检索技术的新视角[N];中华读书报;2005年
中国博士学位论文全文数据库 前10条
1 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
2 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
3 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
4 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
5 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
6 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
7 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
8 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
9 唐秀玲;论话题及其在汉语语法分析中的应用[D];上海师范大学;1997年
10 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前10条
1 皮晓峰;基于概率上下文无关语法的句法分析研究与实现[D];电子科技大学;2005年
2 刘琍;“程度副词+名词”的语义、语用和句法分析[D];四川师范大学;2005年
3 金天;论汉语及英语中否定歧义的消除[D];广东外语外贸大学;2007年
4 尹鹏;基于SVM的中文组块间依存关系分析[D];大连理工大学;2006年
5 张萍;现代汉语标语语法研究[D];南京师范大学;2006年
6 赵德玉;汉语句法分析技术及其在机器人辅助教育智能接口中的应用研究[D];天津师范大学;2004年
7 顾芸;名词短语移位的句法分析[D];南京师范大学;2006年
8 周吉;自然语言处理及搜索引擎的研究[D];吉林大学;2007年
9 魏蓉;限定领域的基本陈述句句法分析[D];天津师范大学;2008年
10 张耀中;融合语义和句型信息的中文句法分析方法研究与实现[D];北京大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026