收藏本站
《山东大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于生成性概率模型的句法分析和多文档自动文摘研究

杨潇  
【摘要】: 由于万维网上文本信息的快速增长,自然语言处理作为使计算机得以应用文本形式信息的关键,已成为目前的一个研究热点。本文的工作主要讨论自然语言处理理论研究中的句法分析和应用研究中的多文档自动文摘这两个方面的内容。其中,句法分析是自然语言处理中的关键技术,多文档自动文摘、机器翻译和信息检索等许多自然语言处理的应用研究需要依赖句法分析的结果作为支持;对句法分析的研究也有助于补充对人类语言的认知,因此句法分析的研究具有重要的理论意义和实用价值。多文档自动文摘可以给用户提供简明扼要的概述,帮助用户快速处理文本信息,随着网络上文档数量的飞速增长,多文档自动文摘越来越受到人们的重视。 句法分析的关键问题是对单句对应的多个句法结构进行优选的问题,而自动文摘中的关键问题则是对文档中的多个句子进行优选的问题。本文针对句法结构和句子的优选问题,在国家自然基金和山东省自然基金的资助下,使用生成性的概率模型,分别为句法结构和句子建模,进行句法分析和多文档自动文摘问题的研究。主要包括句法分析中的语法体系、分析算法和分析模型三个方面的研究和多文档自动文摘中句子表示形式和排序方法的研究,并通过实验对研究结果进行了验证和分析。 在句法分析的研究中,提出了一种新的语法体系,研究了该语法体系的分析算法和剪枝规则,并在概率分析模型中融合了新的结构信息。在自动文摘的研究中,提出了一种基于概率主题模型的句子建模方法来挖掘文档集潜在的主题结构,在该主题模型的基础上,进一步研究了句子权重的计算方法和文摘的冗余消除方法。 本文的主要研究内容和创新点包括以下四个方面: 1.提出了一种以词汇组合关系描述语法的二元组合语法体系 由于依存语法可以方便地表达中心词与修饰词之间的依赖关系,比短语结构语法更适于信息检索领域的应用,是当前自然语言处理中语法体系的一个研究热点。但依存语法缺乏内部结构表示,不能显式地表达复杂的句法结构,对语法结构的识别造成一定的障碍。针对语法体系中缺乏短语搭配强度和依存语法研究中缺乏内部结构表示形式造成的复杂结构难以表达的问题,提出了一种通过相邻短语中心词的两两组合来表达句法结构的二元组合语法。在组合关系中引入局部优先级来描述结构之间相对的搭配强度,限制组合次序。二元组合语法中引入的内部节点有利于句法结构的表达和识别,局部优先级表示的短语搭配强度可以限制句法分析中非法结构的生成。 2.提出了一种基于局部优先级的句法分析算法 句法分析算法是句法分析的重要组成部分,它直接影响句法分析的准确性和效率。针对本文提出的二元组合语法,结合语法中定义的局部优先级的限制,提出了一种基于局部优先级的句法分析算法。局部优先级的限制信息融入到二元组合语法的分析算法中后,可以作为分析过程中剪枝的规则。本文对传统的CYK(Cocke,Younger,Kasami)图算法进行改进,提出了一种基于局部优先级的二元组合语法分析图算法,并在人工归纳的语法体系上进行了句法分析实验。结果表明,改进后的CYK图算法在产生树结构的数量和花费的时间上都明显低于传统的CYK算法。 3.提出了一种基于嵌套层次限制的句法分析模型 在概率模型的构建中,如何应用句法结构信息是句法分析建模中需考虑的主要问题。目前考察的信息主要有词汇支配度的信息、依存长度的信息等。修饰词的嵌套层数越多语言越难理解,本文将这种修饰词嵌套层次的信息引入到生成性的概率分析模型中,增强对句法结构的识别能力。在建立了基于局部优先的CYK图算法的基础上,提出了一种融合嵌套层次限制的二元组合语法分析模型。句法分析实验中,将依存格式的树库转换为二元组合语法的形式来构建二元组合语法树库,然后基于该树库自动获取句法关系和优先级信息,并估计嵌套层次模型的参数。在二元组合语法树库上进行汉语句法分析的实验,结果表明,与词汇支配度模型相比,利用嵌套层次限制构造的汉语句法分析模型可以获得更高的分析正确率。实验中也考察了局部优先级限制对分析正确率的影响,结果表明局部优先级和嵌套层次的限制可以有效的避免非法结构的生成。 4.提出了一种基于生成性概率主题模型的多文档自动文摘方法 使用潜狄利克雷分配(Latent Dirichlet Allocation,LDA)模型为句子建模,以捕捉深层次的主题信息。基于模型中主题在词汇上的概率分布p(w|z)和句子在主题上的概率分布p(z|s),提出了概率生成模型和句子生成模型两种句子权重的计算方法,文摘中选择权重较大、且与前面选择的句子主题不重复的句子作为文摘句。实验在DUC2002会议中提供的通用型多文档文摘测试集上进行,以ROUGE自动评测工具作为评测标准。结果表明,与基于词频的文摘模型和其它基于LDA模型的文摘模型相比,本文提出的模型可以获得更好的文摘效果,其中概率生成模型在所有评价标准上均优于其他模型。 本文进一步的工作包括:将组合关系的标签作为上下文纳入到分析算法中,以便于更精确的描述分析算法;在句法分析模型中添加其他有用的结构信息和主题信息的约束,提高句法分析的正确率;在多文档自动文摘方面使用句法主题模型为句子建模,以便同时考虑句法和主题信息,改善文摘效果。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 金光赫;王兴伟;曲大鹏;;提高检索性能的朝鲜语布尔查询词生成及扩展[J];小型微型计算机系统;2013年05期
【参考文献】
中国期刊全文数据库 前10条
1 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
2 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
3 孙昂;江铭虎;贺一帆;陈林;袁保宗;;基于句法分析和答案分类的中文问答系统[J];电子学报;2008年05期
4 李沐,姚天顺;一种基于优先关系的LSD分析算法[J];计算机研究与发展;2001年05期
5 秦兵;刘挺;陈尚林;李生;;多文档文摘中句子优化选择方法研究[J];计算机研究与发展;2006年06期
6 石晶;戴国忠;;基于PLSA模型的文本分割[J];计算机研究与发展;2007年02期
7 ;AUTOMATIC TEXT SUMMARIZATION BASED ON TEXTUAL COHESION[J];Journal of Electronics(China);2007年03期
8 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
9 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期
10 李卫红,万建成;书面汉语全切分算法中的并发检索模型[J];计算机应用;2004年05期
中国博士学位论文全文数据库 前3条
1 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
2 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
3 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 王倩;从复合句零主语指代看汉英语言思维的差异[J];安徽大学学报;2005年05期
2 王美华;;词汇化形成的虚词与非词形式在共时平面的体现——以“有点儿”和“可见”为例[J];安康学院学报;2011年05期
3 王智杰;;“似的”研究综述[J];北方论丛;2006年04期
4 刘海涛;;翻译的复杂网络视角[J];北华大学学报(社会科学版);2010年04期
5 黄昌宁;李玉梅;;从树库的实践看句本位和中心词分析法的生命力[J];北京师范大学学报(社会科学版);2010年05期
6 秦颖;王小捷;钟义信;;级联中文组块识别[J];北京邮电大学学报;2008年01期
7 马书东;;复名连动构式的构式义[J];长春理工大学学报;2012年04期
8 李良炎;;新的句法标注模型探索[J];重庆大学学报(社会科学版);2007年03期
9 甘智林;论汉语兼语句的辨析[J];常德师范学院学报(社会科学版);1999年04期
10 亢世勇;《现代汉语语法信息词典》的特点与不足[J];辞书研究;2001年06期
中国重要会议论文全文数据库 前10条
1 李艳娇;杨尔弘;;树库中的歧义组合考察[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 周惠巍;黄德根;高洁;杨元生;;最大生成树算法和Nivre算法相结合的中文依存关系解析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 斯·劳格劳;华沙宝;萨如拉;;基于统计方法的蒙古语依存句法分析模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 宋彦;黄昌宁;揭春雨;;中文CCG树库的构建[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 邵艳秋;邱立坤;梁春霞;毛宁;;中文语义依存树库构建及自动分析技术[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 周强;王俊俊;陈丽欧;;构建大规模的汉语事件知识库[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 毛家菊;张琳;夏爱军;陆汝占;;情景中汉语指示代词短语解释的形式化[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 傅爱平;;广义依存关系和汉语自动分析[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
3 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
4 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
5 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
6 江悦;场景图像内容表述和分类研究[D];国防科学技术大学;2010年
7 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
8 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
9 张金圈;汉语单音方位词与单音动词的偏正性组配研究[D];华中师范大学;2011年
10 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
中国硕士学位论文全文数据库 前10条
1 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
2 林琳;“代词+(的)+名词”结构中“的”字隐现研究[D];上海外国语大学;2010年
3 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
4 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
5 安波;基于蛋白质关系网络的蛋白质络合物抽取研究[D];大连理工大学;2010年
6 杨佳;浅析《训世评话》中的兼语句[D];辽宁师范大学;2010年
7 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
8 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
9 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
10 柴艳丽;复音同义词检索与分析系统的设计与研究[D];广西民族大学;2010年
【同被引文献】
中国期刊全文数据库 前1条
1 夏玉成;量化评价指标的自动统计算法研究[J];煤田地质与勘探;2001年01期
【二级参考文献】
中国期刊全文数据库 前10条
1 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
2 冯志伟;;国外机器翻译的新进展[J];国外语言学;1980年01期
3 陆致极;;关于广义短语结构语法[J];国外语言学;1986年04期
4 马希文;;以计算语言学为背景看语法问题[J];国外语言学;1989年03期
5 韩万衡;德国配价论主要学派在基本问题上的观点和分歧[J];国外语言学;1997年03期
6 李讷,石毓智;汉语动词拷贝结构的演化过程[J];国外语言学;1997年03期
7 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
8 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
9 戴浩一;概念结构与非自主性语法:汉语语法概念系统初探[J];当代语言学;2002年01期
10 李蕾,钟义信;自动文摘系统中基于全信息词典的复杂语句分析方法及其实现[J];电子学报;2000年08期
中国重要会议论文全文数据库 前2条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 周强;;汉语句法知识的自动获取研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 玉素甫·艾白都拉;维语句法分析器中的词义排歧问题的研究[J];计算机应用与软件;2002年04期
2 邹加棋;带有误差上限的句法分析方法[J];福建电脑;2003年12期
3 李向宏,王丁,黄成哲,雷国华;自然语言句法分析研究现状和发展趋势[J];微处理机;2003年02期
4 孟遥;李生;赵铁军;杨沐昀;;基于统计的句法分析技术综述[J];计算机科学;2003年09期
5 徐健,张辉,蔡劲松;一种现代汉语句法分析方法的建立与实现[J];计算机应用与软件;2004年01期
6 陈晓明,周渝;汉语部分句法分析的研究和发展趋势[J];贵州大学学报(自然科学版);2004年04期
7 李幸;宗成庆;;引入标点处理的层次化汉语长句句法分析方法[J];中文信息学报;2006年04期
8 冀铁亮;穗志方;;词汇化句法分析与子语类框架获取的互动方法[J];中文信息学报;2007年01期
9 段湘煜;赵军;徐波;;基于动作建模的中文依存句法分析[J];中文信息学报;2007年05期
10 张小艳;邵刚;史月飞;;汉语句法分析中标点符号的运用[J];计算机工程与科学;2009年01期
中国重要会议论文全文数据库 前10条
1 李正华;车万翔;刘挺;;基于柱状搜索的高阶依存句法分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 李军辉;周国栋;朱巧明;钱培德;;一种改进的中文层次句法分析模型研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 张浩;刘群;白硕;;结构上下文相关的概率句法分析[A];第一届学生计算语言学研讨会论文集[C];2002年
4 冀铁亮;穗志方;;词汇化概率句法分析与动词子语类框架获取的互动方法[A];第三届学生计算语言学研讨会论文集[C];2006年
5 孙俊;曹海龙;赵铁军;;面向句法分析的样本选择[A];第三届学生计算语言学研讨会论文集[C];2006年
6 刘海涛;;影响依存句法分析的因素探讨[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 庞文斌;张国煊;曹恬;;基于规则和统计的汉语浅层句法分析的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 孙宏林;俞士汶;;浅层句法分析方法概述[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
10 段湘煜;赵军;徐波;;基于动作建模的中文依存句法分析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前8条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 李正华;汉语依存句法分析关键技术研究[D];哈尔滨工业大学;2013年
3 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
4 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
5 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
6 冯秋香;基于数据库语义学的古汉语句法语义分析研究[D];大连理工大学;2012年
7 林锋;问题回答和对话系统中置信度的研究[D];复旦大学;2008年
8 骆琳;面向计算机的现代汉语“得”字研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 王蕾;基于统计方法的汉语长句依存句法分析[D];中国海洋大学;2009年
2 邵刚;基于中文的句法分析系统的研究与实现[D];西安科技大学;2008年
3 沈超;基于转换的依存句法分析研究[D];复旦大学;2009年
4 黄鑫;基于句法分析的产品评论挖掘研究[D];北京邮电大学;2011年
5 赵德玉;汉语句法分析技术及其在机器人辅助教育智能接口中的应用研究[D];天津师范大学;2004年
6 孙俊;面向句法分析的样本选择[D];哈尔滨工业大学;2006年
7 耿向好;基于历史信息的中文多层次句法分析研究[D];苏州大学;2008年
8 任晓娜;基于统计的汉语依存句法分析研究[D];沈阳航空航天大学;2011年
9 郎文静;规则与统计相结合的汉语依存句法分析技术研究及其应用[D];沈阳航空航天大学;2012年
10 马学喆;依存句法分析的若干关键问题的研究[D];上海交通大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026