汉语语义知识的表示及其在汉英机译中的应用
【摘要】:
本文研究了自然语言处理的语义层面,提出了汉语语义知识的表示和获取方法,并将汉语语义知识应用到一个基于中间语言的汉英机器翻译系统ICENTII中。
语义分析是自然语言理解的基础。本文在比较了各种语义学理论、各种知识表示方法和现有语义资源的基础上,提出并建立了基于框架的汉语语义知识的层级表述体系,体系由语义原语、义项、语义块三级语义单位和语义规则构成。语义原语是最基本的语义单位,用来描述语义特征;义项表示概念,用语义原语描述;语义块表示复合概念,用嵌套的框架结构描述。在语义框架中,由语义角色定义了各语义成分之间的语义关系。语义规则是组合性语义知识的抽象,由合式语义链和生成块模板两部分构成。合式语义链反映了语义约束知识,即什么样的语义单位可以组合在一起;生成块模板表示了由合式语义链组合在一起的语义单位可生成的新成分的语义结构,其中语义角色刻画了结构中各成分之间的语义关系。在建立了语义知识的表述体系后,本文设计并实现了语义规则的获取算法。在搭配实例语料中,经由统计的方法自动学习获得合式语义链,再由半自动的方式获取生成块模板,得到语义规则。
在建立了汉语语义知识的表述体系并获取了语义规则后,本文将语义知识应用于基于中间语言的汉英机译系统ICENT中,实现了ICENTII系统。
ICENTII系统也是基于中间语言的翻译系统,汉语分析的所有结果都表示在中间语言中,英语生成所需的信息也都从中间语言中获得。因此,中间语言是系统设计的关键。本文在分析了汉语和英语的各种语言现象后,设计并实现了一种基于句法语义的中间语言,用嵌套的框架结构表示。框架中包含一组槽值对,用来说明各种句法语义属性。ICENTII系统的中间语言突出了语义属性的表示,包括词的义项描述和短语、句子的语义关系描述。ICENTII系统的中间语言综合了句法和语义信息,在表示能力和实现复杂性之间进行了权衡,概念粒度适中,表示清楚,实现简单。ICENTII系统的中间语言遵循渐进的开发方法,在系统设计的过程中不断完善。实验证明,该中间语言表示能满足翻译的需要。
ICENTII系统工作的第一步是分词和标注,本文设计并实现了一个语义自动标注算法,对分词结果进行义项的自动标注。标注过程对单义词、多义词和未识别词分别进行处理,利用句法和语义知识确定义项标注集合。语义标注的结果可能不唯一,在语义分析阶段将进一步进行词义的消歧。若义项标注集合中包含正确的义项,则语义标注命中;若义项标注集合有且仅有正确的义项,则语义标注准确。经实验证明,该算法可以达到很高的命中率和较高的准确率,而且命中集合的大小也比较小。
句法和语义是形式和内容的关系,密不可分。本文在汉语的分析中实现了句法分析和语义分析的结合。汉语的分析采用扩展的上下文无关文法,每一条句法产
国防科学技术大学研究生院学位论文
生式都对应一个前提判断函数。当分析器要用句法产生式进行归约时,首先激活
前提判断函数,在其中调用相应的语义分析模块进行语义分析,只有通过语义分
析才可以进行归约,否则当前分析不正确,可以终止。在进行规约时,不但产生
了新的句法结构,还生成了与之对应的语义结构。因此,在ICENTll系统的汉语
分析中,语义分析引导了分析器的动作。
歧义是自然语言的一大特点,词汇歧义和句法歧义的消解仅通过句法知识难以
解决。本文提出了一种利用语义知识消歧的策略,在汉语的语义标注阶段,利用
合式语义链进行词汇歧义的消解;在汉语的语义分析阶段,利用语义规则的匹配
和生成块可生成性的判定进行词汇歧义的进一步消解和句法歧义的消解。利用语
义知识消歧的方法产生了比较满意的结果。
本文的最后总结了全文,井指出了下一步的研究工作。
本文的工作把汉语的分析从句法层面深入到语义层面,建立了完整的、系统的
语义知识表示,并把获取的语义知识应用到汉英机译系统ICENTll的各个阶段中。
经过对实验语料的翻译,取得令人满意的结果。本文的工作将对进一步的研究工
作奠定良好的理论和实践基础。
|
|
|
|
1 |
CSDN;;微软中间语言和即时编译[J];程序员;2002年04期 |
2 |
陈涵生;陈宇能;;Ada程序设计环境的中间语言DIANA[J];计算机应用与软件;1986年05期 |
3 |
李筱青,陈晖,陈意云;一种新型类型化中间语言的优化实现技术[J];计算机工程;2005年05期 |
4 |
秦青文;王戟;孙旭光;梅文华;;基于IDA-Pro的软件逆向分析方法[J];计算机工程;2008年22期 |
5 |
胡燕武,白光野;中间语言X-code的设计思想[J];计算机学报;1983年02期 |
6 |
陈欣荣,孟红霞;易于移植的测试图形程序编译器[J];计算机辅助设计与图形学学报;1997年04期 |
7 |
陈凯明,刘宗田,任传胜;逆编译中面向用户的中间语言设计和实现[J];小型微型计算机系统;2002年10期 |
8 |
恽纪昌;安振庄;;ATLAS语言介绍[J];电子测量技术;1983年03期 |
9 |
申利民,唐勇,柯汉水,陈晓谦;基于中间语言的逆编译方法[J];燕山大学学报;1997年01期 |
10 |
戴志锋;管建和;;C#中属性定义value参数的值传递机制分析[J];电脑编程技巧与维护;2007年09期 |
11 |
张涛;李迅波;;软PLC的转换中间语言模型的建立与研究[J];微计算机信息;2007年35期 |
12 |
王俊龙;宁涛;郑国磊;;基于中间语言的通用后置处理系统[J];机械工程师;2009年01期 |
13 |
洪青阳,李堂秋,杨晓峰;汉英机译系统英文生成中特殊动词短语的处理研究[J];计算机应用研究;2001年03期 |
14 |
杨放春;陈俊亮;;SDL/GR中间语言的设计方法[J];北京邮电大学学报;1990年04期 |
15 |
陈凯明,刘宗田,王武荣,叶勇;符号执行过程的DFA和CFA[J];计算机工程;2002年11期 |
16 |
杨艳萍;谭庆平;;Web服务自动语义标注的本体定位方法研究[J];计算机工程与科学;2008年04期 |
17 |
曾诚;李兵;何克清;;KMP算法在Web服务语义标注中的应用[J];微电子学与计算机;2010年08期 |
18 |
徐爱萍;边馥苓;;基于语义查询树的GIS中文查询语句向SQL的转换[J];武汉大学学报(信息科学版);2006年10期 |
19 |
徐爱萍;边馥苓;;GIS中文查询的中间语言向SQL语句的转换[J];计算机工程;2006年22期 |
20 |
张瑜;李景;孟宪学;苏晓路;;网络标注的主要方法概述[J];图书情报工作;2008年01期 |
|