收藏本站
收藏 | 论文排版

汉蒙词语对齐及相关技术研究

雪艳  
【摘要】: 汉蒙平行语料库是包含汉语和蒙古语两种语言互译文本的语料库,它是蒙古文信息处理数据资源的重要组成部分。汉蒙平行语料库在语言的多个层面上呈现汉语和蒙古语的互译对照信息,能够为汉蒙机器翻译或者其他与汉蒙双语相关的信息处理提供强有力的支持。 汉蒙平行语料库的建设中,最关键的技术是“对齐”。所谓对齐,就是从源文和译文文本中找出互为翻译的片断。由于互译片段的粒度不尽相同,因此有篇章、段落、句子、短语以及词等不同级别的对齐。许多与双语处理相关的应用,如统计机器翻译、基于实例的机器翻译、词义消歧、双语词典编纂等,都要求以经过词语对齐的平行语料库作为依托。 目前,汉蒙平行语料库的大部分数据是通过手工录入的方式收集起来的。录入过程中,我们按照“句对”的格式对语料进行了整理。因此,至少现阶段,汉蒙平行语料库的加工不涉及篇章、段落或者句子级别的对齐任务。如何在汉蒙句对上,进一步寻找汉蒙词语之间的对应关系,是本篇论文的重点研究内容。 现在虽然有词语对齐开源软件(如,GIZA++)可供使用,但这一类基于纯统计学方法的工具通常只有在超大规模语料库上才能取得令人满意的效果。对于像汉蒙平行语料库这样规模偏小的资源,我们主张使用“基于知识”的方法来实现词语对齐。 本文在借鉴和吸收前人研究成果的基础上,结合蒙古文信息处理的资源现状,提出了一种知识密集型(Knowledge Intensive)的汉蒙词语对齐方法。该方法的主旨是以“基于双语词典的Greedy算法”作为基本框架,通过在此框架内引入多种外部知识和信息,如蒙古语同义词知识、蒙古语词法知识、蒙古语连续多词单元的标注信息、汉蒙数词到阿拉伯数字的转换信息以及汉语介词与蒙古语“格”的对应规则等,逐步提高对齐的召回率和准确率。就这些知识(或信息)的获取方法及它们在汉蒙词语对齐中的作用,本文的研究包括如下几个方面: (1)提出利用蒙古语《类语辞典》中的同义词知识对汉蒙双语词典进行扩充,为汉蒙词语对齐提供更多的翻译选项。 (2)利用一个基于词典和规则的方法对蒙古语文本进行词法分析和标注,为汉蒙词语的相似度计算提供蒙古语词干信息。 (3)提出一种基于同现频率和词类信息的蒙古语连续多词单元的抽取方法,结合语言学家的内省判断构造出一个有效的词表,并以该词表作为依据,对蒙古语文本中的连续多词单元进行捆绑标注。这一标注信息能够帮助汉蒙词语对齐系统返回一部分“l:n”模式的对齐连接。 (4)提出一种将汉蒙数词转换成阿拉伯数字的方法,目的是以阿拉伯数字作为中介,得到汉蒙数词的对齐。 (5)基于汉语介词和蒙古语“格”之间的对应规律,提出一种局部启发式算法,以实现汉语“介词+名词(或代词)”结构与蒙古语格变化词形之间的“2:1”模式的对齐。 另外,我们通过对大量汉蒙词语人工对齐结果及相关笔记进行比较和研究,发现人工词语对齐中存在相当程度的“主观性”因素。本文以当前汉蒙词语对齐系统的评价为主要目标,提出并制定了“汉蒙词语人工对齐规范”,为建立“标准对齐连接”提供操作细则。 实验部分,采用召回率、正确率和F值作为评价方法,在三类测试集(日常用语、政府文献、小说)上进行了一系列的实验和考察,总结出各种语言学知识对词语对齐的影响。实验结果表明,通过在基于词典和dislocation的基本框架内综合引用多种语言学知识,系统能够在“汉蒙日常用语”测试集上取得相对最好的成绩,召回率为0.592,正确率为0.814。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 那顺乌日图;关于面向信息处理的蒙古语语义研究[J];内蒙古大学学报(人文.社会科学版);2002年05期
2 张建梅;;面向信息处理的蒙古文同形异音词读音识别研究[J];内蒙古大学学报(人文社会科学版);2007年03期
3 德·青格乐图;;学者访谈——访确精扎布教授[J];内蒙古师范大学学报(哲学社会科学版);2011年03期
4 姜迎春;雪艳;;词语对齐与机器翻译问题研究——以汉蒙机器翻译为例[J];民族翻译;2010年01期
5 拉西吉格木德;蒙古文信息处理通用系统内部码体系结构详析[J];中文信息学报;1996年01期
6 那顺乌日图;淑琴;;面向信息处理的蒙古语规范化研究[J];中央民族大学学报(哲学社会科学版);2007年06期
7 华沙宝;达胡白乙拉;;对蒙古语语料库的短语标注[J];中央民族大学学报(哲学社会科学版);2006年05期
8 ;专家风采[J];中国教育信息化;2008年01期
9 陈海霞;辨别《TAI/TEI》形式的三种功能规则研究[J];内蒙古师范大学学报(哲学社会科学版);2004年S2期
10 确精扎布;;关于蒙古文编码的若干问题——与王升亮、嘎日迪、敖其尔先生商榷[J];内蒙古大学学报(哲学社会科学版);2008年04期
11 华沙宝;蒙古文网络信息技术处理的对策[J];民族语文;2002年06期
12 德·萨日娜;关于蒙古语语义分析的思考[J];内蒙古社会科学(汉文版);2004年03期
13 包艳花;;蒙古文识别文本后处理字素合并模块的实现[J];内蒙古民族大学学报;2009年06期
14 查干哈达;;中国蒙古语文学会第六届年会在呼和浩特举行[J];民族语文;1992年02期
15 淑琴;那顺乌日图;;面向EBMT系统的汉蒙双语语料库的构建[J];内蒙古社会科学(汉文版);2006年01期
16 确精扎布,那顺乌日图;关于蒙古文编码(下)[J];内蒙古大学学报(社会科学版);1995年01期
17 华沙宝;蒙古语短语标注策略[J];中央民族大学学报(哲学社会科学版);2003年05期
18 巴.萨日娜;《蒙古语语法信息词典》动词语法属性字段设置[J];内蒙古大学学报(人文.社会科学版);2005年06期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前9条
1 白双成;胡其图;木仁;;蒙古文音节切分算法实现及其应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 赵军;敖其尔;吉仁尼格;巩政;葡萄;陈建东;;基于统计语言模型蒙古文词汇分析校正器的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 艳花;;《蒙古语语法信息词典字符分库》的建立及意义[A];第三届学生计算语言学研讨会论文集[C];2006年
4 通拉嘎;赵小兵;;论蒙古语词素切分的实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 海银花;那顺乌日图;;面向“蒙古语语义信息词典”的名词语义分类体系[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 淑琴;艳花;;蒙古语构形附加成分重叠使用特征及其模型[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
7 德·萨日娜;那顺乌日图;;《蒙古语语义信息词典》的初步构建[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 确精扎布;;蒙古文编码国际标准通过以后研制的几种蒙古文录入系统比较[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
9 德·萨日娜;;蒙古语属格短语的类型分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前6条
1 雪艳;汉蒙词语对齐及相关技术研究[D];内蒙古大学;2009年
2 海银花;面向信息处理的蒙古语名词语义研究[D];内蒙古大学;2010年
3 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
4 富涛;面向信息处理的蒙古语简单谓动句句模研究[D];内蒙古大学;2011年
5 张建梅;基于语料库的现代蒙古语简单陈述句句型分析研究[D];内蒙古大学;2010年
6 林八鸽;《蒙古语连接形式知识库》的建设[D];内蒙古大学;2009年
中国硕士学位论文全文数据库 前10条
1 吴金星;蒙古语词法标注语料库的构建及相关技术研究[D];内蒙古大学;2011年
2 李慧;蒙古语语义知识词典的研究与实现[D];内蒙古大学;2012年
3 吴红梅;蒙古语复合动词作定语研究[D];内蒙古师范大学;2010年
4 乌云塔娜;蒙古语复合名词支配量词研究[D];内蒙古师范大学;2010年
5 李桂荣;《青史演义电子词典》虚词部分的构建[D];内蒙古大学;2010年
6 阿日古娜;带主语标记的蒙古语复合名词作主语研究[D];内蒙古师范大学;2010年
7 都来;带有复数附加成分的蒙古语复合名词的研究[D];内蒙古师范大学;2010年
8 萨日娜;关于蒙古语复合词和后置词的语义搭配研究[D];内蒙古师范大学;2010年
9 苏龙嘎;蒙古语复合名词属格定语研究[D];内蒙古师范大学;2010年
10 苏德米德;蒙古语复合名词支配形动词的研究[D];内蒙古师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978