收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉语依存句法分析关键技术研究

李正华  
【摘要】:依存句法分析的目标是分析输入句子的句法结构,将词语序列转化为树状的依存结构。一条依存弧两个词语构成搭配关系,依存弧上的标签表示搭配的具体类型,如主语、宾语、状语等。在不同语法体系中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。计算自然语言学习国际会议(CoNLL)联合举办的公开评测任务从2006年至2009年连续四年关注面向多语言的依存句法分析,大大推动了依存句法分析的发展。依存句法分析也越来越广泛的应用于机器翻译、问答系统、文本挖掘、信息检索等。 依存句法分析的研究工作旨在提高依存分析的准确率和效率。高准确率的分析结果可以为上层应用提供更可信的句法结构。随着互联网数据的迅速膨胀,上层应用系统需要迅速处理海量的信息,因此效率对于依存句法分析的应用也很关键。本文的研究内容涵盖这两个问题,包括以下四个方面。 1.提出了基于柱搜索和标点切分的快速高阶依存句法分析方法。针对前人提出的面向高阶依存句法分析模型的动态规划解码算法时间复杂度高的问题,本文提出使用柱搜索的近似解码算法,一方面允许模型可以方便的融入丰富的高阶句法子树特征,另一方面保证较低的时间复杂度,我们实现的基于柱搜索的高阶依存句法分析系统在CoNLL2009年多语依存句法分析和语义角色标注联合评测任务上取得了优异的成绩。进而,我们针对汉语的特点,提出一种利用标点符号进行长句切分的二阶段依存句法分析方法,进一步提高依存句法分析模型处理长句时的效率。实验证明,这种方法可以大幅度提高依存句法分析的速度,长句子的句法分析准确率也有提高。 2.提出了汉语词性标注和依存句法分析联合模型。由于缺少词语的形态变化信息,汉语词性标注和其他语言如英语相比,准确率较低。这对对汉语依存句法分析带来严重的错误蔓延问题。实验表明使用自动词性时依存句法分析准确率比使用正确词性时低大约6%。对此,本文提出并深入系统的研究了汉语词性标注和依存句法分析联合模型。首先,我们扩展了前人提出的面向依存句法分析的解码算法,提出了相应的面向联合模型的基于动态规划的解码算法。并且,为了解决联合解码算法的时间复杂度过高的问题,我们又提出了一种有效地基于边缘概率的词性裁剪方法。实验结果表明联合模型可以提高词性和句法准确率。深入的错误分析表明联合模型可以帮助消解句法敏感的词性歧义。 3.提出了面向联合模型的分离被动进取训练算法。词性标注和依存句法分析联合模型中句法特征占据主导地位,导致词性特征无法贡献其消歧作用。对此,本文提出一种面向词性标注和依存句法分析联合模型的训练算法。算法分别不同的步长对词性特征和句法特征的权重进行更新。和传统的平均感知器和被动进取训练算法相比,分离被动进取训练算法可以很自然的增大词性特征的权重,从而更好的平衡联合模型中词性特征和句法特征的消歧作用。实验发现,我们的基于分离被动进取训练算法的联合模型在汉语和英语数据上都可以取得最好的词性和句法准确率。 4.提出了基于准同步文法的多树库融合方法。汉语存在多个异构树库,而利用多个树库以提高依存句法分析准确率是一个非常有吸引力的课题。本文提出一种基于准同步文法的多树库融合方法,充分利用标注规范不同的多个单语树库,以提高句法分析准确率。我们设计了丰富的转换模式来刻画不同标注规范间的对应规律,然后基于这些转化模式形成准同步文法特征,从而增强基准依存句法分析模型。准同步文法特征用来指导句法模型做出更好的决策,并且可以很自然的融入到基于图的句法分析解码算法中。实验结果表明,我们的方法可以充分利用源树库的知识。从而提高句法模型在目标树库上的准确率。 总之,本文针对汉语特点,深入研究了基于标点的快速高阶依存句法分析方法、词性标注和依存句法分析的联合模型和多树库融合问题,大大提高了汉语依存句法分析处理实际文本数据的效率和准确率。本研究取得了一些初步的成果。我们期待这些研究成果可以进一步推动自然语言处理领域和其他上层应用如机器翻译、信息抽取的发展。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王燚;李中志;;基于期待类型的Chart句法分析算法[J];计算机应用;2009年05期
2 邹文杰;;线图分析法的一种改进方法[J];科技信息(科学教研);2008年20期
3 万建成;自然语言句法分析的有界深度控制和早期剪枝[J];软件学报;1995年06期
4 杨思春,陈家骏;汉语自动句法分析中结构歧义分析与研究[J];昆明理工大学学报(理工版);2005年02期
5 才藏太,华关加;班智达汉藏公文翻译系统中基于二分法的句法分析方法研究[J];中文信息学报;2005年06期
6 王成敏;;基于规则的汉语名词短语自动识别方法研究[J];四川理工学院学报(自然科学版);2009年02期
7 邵银波,贺玲,秦江敏;BMP神经网络在句法分析中的运用[J];空军雷达学院学报;2000年04期
8 段建勇;李俊;张梅;马礼;;限定领域的自动问答系统研究[J];北方工业大学学报;2010年01期
9 管鹏玲;刘贵全;;基于词汇链分析的英文自动文摘[J];计算机系统应用;2007年09期
10 王鹏,戴新宇,陈家骏,王启祥;基于规则的汉语句法分析方法研究[J];计算机工程与应用;2003年29期
11 吴华;徐甜;;机器翻译中源语分析的研究与探讨[J];安阳工学院学报;2006年02期
12 亓超;张美娜;迟呈英;战学刚;;基于合一的链接文法[J];计算机应用与软件;2008年04期
13 王立群;;依存关系正确理解的基础上的日中翻译[J];电脑知识与技术;2009年28期
14 周惠巍;黄德根;钱志强;杨元生;;短语结构到依存结构树库转换研究[J];大连理工大学学报;2010年04期
15 丁志强;王惠临;;基于Glue Semantics和DRT的自然语言理解系统的设计与实现[J];现代图书情报技术;2010年04期
16 仲其智;姚建民;;低频词的中文词性标注研究[J];计算机应用与软件;2011年03期
17 李荣;郑家恒;;一种改进Viterbi算法的应用研究[J];计算机工程与设计;2007年03期
18 王顺迁;叶大兴;;一个并行属性计值算法[J];同济大学学报(自然科学版);1990年04期
19 宋柔,王鑫;自然语言句法分析的顺序控制算法[J];软件学报;1992年02期
20 易蓉湘,何克抗;计算机汉语文稿校对系统[J];计算机研究与发展;1997年05期
中国重要会议论文全文数据库 前10条
1 斯·劳格劳;华沙宝;萨如拉;;基于统计方法的蒙古语依存句法分析模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 才藏太;;基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 陈劲光;何婷婷;李芳;桂卓民;;基于概率和句法分析的中文句子修剪[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 张晓甜;赵海;;基于树结构模式挖掘的非监督中文短语结构句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 王丹;姬东鸿;黄玮;;一种基于MIRA和遗传算法的句法分析模型构造方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 张浩;刘群;白硕;;结构上下文相关的概率句法分析[A];第一届学生计算语言学研讨会论文集[C];2002年
8 赵铁军;李生;孟遥;黄玉;杨沐昀;;机器翻译系统中句法分析技术的研究实践[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 郭慧志;谢学敏;张普;;抽象名词和组织类名词的限定作用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 李正华;汉语依存句法分析关键技术研究[D];哈尔滨工业大学;2013年
2 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
3 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
4 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
5 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
6 唐秀玲;论话题及其在汉语语法分析中的应用[D];上海师范大学;1997年
7 徐艳华;现代汉语实词语法功能考察及词类体系重构[D];南京师范大学;2006年
8 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
9 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
10 洪淼;现代汉语连动结构研究[D];南京师范大学;2004年
中国硕士学位论文全文数据库 前10条
1 杨雪娇;语义网自动构建中句法分析的研究[D];沈阳工业大学;2012年
2 庞熠雅;介词、连词用法在短语结构句法分析中的应用研究[D];郑州大学;2013年
3 张静杰;虚词用法自动识别及其在依存句法分析中的应用研究[D];郑州大学;2013年
4 魏蓉;限定领域的基本陈述句句法分析[D];天津师范大学;2008年
5 任晓娜;基于统计的汉语依存句法分析研究[D];沈阳航空航天大学;2011年
6 马学喆;依存句法分析的若干关键问题的研究[D];上海交通大学;2013年
7 黄鑫;基于句法分析的产品评论挖掘研究[D];北京邮电大学;2011年
8 张慧;汉语句法分析及其在汉英统计翻译中的应用[D];厦门大学;2007年
9 皮晓峰;基于概率上下文无关语法的句法分析研究与实现[D];电子科技大学;2005年
10 刘琍;“程度副词+名词”的语义、语用和句法分析[D];四川师范大学;2005年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 李琨;IBM百度共拓企业搜索[N];中国计算机报;2006年
3 记者 潘竑;企业搜索:激活被遗忘的信息财富[N];金融时报;2006年
4 北京京华英语学校 张占杰;英语培训切勿陷入“名师”误区[N];北京人才市场报;2005年
5 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
6 本报记者 霍立峰;中科院免费大餐怎么吃[N];中国高新技术产业导报;2002年
7 清华大学外语系 许建平;2005年考研英语阅读、翻译备考要点[N];中国教育报;2004年
8 ;句法语文学科召开工作研讨会[N];中国社会科学院院报;2003年
9 孟传良;略谈汉外词典的修订[N];中国图书商报;2005年
10 王小宁;辞书应慎用“规范”冠名[N];人民政协报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978