收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉英双语平行语料库中对齐方法的研究

刘冬明  
【摘要】: 在自然语言处理领域,双语平行语料库的重要性日益加强,其研究工作主要是集中在构建、对齐和标注等方面。它在在机器翻译、词典编纂、多语言信息检索、术语提取等领域有着重要的研究价值。 在过去的三十年里,各国的研究人员相继建立了许多印欧语言的平行语料库。与之相比,汉英双语平行语料库的研究国内外都相对较少,近年来才刚刚起步。本文的工作主要集中在汉英双语平行语料库词语对齐及词义排歧的研究上,主要包括以下部分: 1.实词对应。在详细考察各类统计参数的基础上,对高频实词提出了适合于汉英两个不同体系语言的一种混合的统计方法,而对低频实词则充分利用词典获取对应信息,最后采用一种综合的基于竞争链接的对应算法,取得了较好的效果。 2.双语语块的识别和对应。本文充分利用已有的实词对应信息,将语块的划分和对应同时进行,这样使得对应和划分能相互提供信息,有效地避免了当前绝大多数算法中存在的双语语块边界划分不一致的情况。 3.名词短语的对应。本文根据名词短语的统计特征,对高频名词短语采用迭代重估算法;对低频短语,则采用类似于低频实词的对应方法。这样就能够从整体上把握对应信息,并使结果具有很高的覆盖率。 4.双语词义排歧。当前大多数基于双语语料的词义排歧算法都局限在利用单个多义词的上下文环境及其对应信息,本文则充分利用当前Hownet资源中概念的可计算性,将词义排歧的问题转化为多义词和另一种语言的相应句子的整体意义相似性问题,从一个新的角度来进行词义排歧,因此得出了满意的研究结果。 本文利用汉英两种语言各自的特点,充分利用已有信息,实现了对平行语枓库中各种信息单元的对齐,实验结果表明,效果显著。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 武晓山;;浅谈翻译记忆和双语平行语料库的关系[J];硅谷;2008年18期
2 武晓山;;浅谈翻译记忆和双语平行语料库的关系[J];硅谷;2008年19期
3 李德俊;;基于英汉平行语料库的词典编写系统CpsDict的研制[J];现代外语;2006年04期
4 李安兴;;关于汉英词典编纂方法与理论创新问题的思考[J];中国出版;2010年24期
5 巫振新;林锦国;杨宇;;专业语料库建立及其在机器翻译中的应用[J];现代计算机(专业版);2008年02期
6 谭勋;吐尔根·依布拉音;艾山·吾买尔;艾山·毛力尼亚孜;;汉维哈柯双语语料库加工系统句子对齐技术的研究[J];电脑知识与技术;2011年28期
7 巫振新;林锦国;杨宇;;专业语料库建立及其在机器翻译中的应用[J];微型电脑应用;2008年04期
8 申文明;黄家裕;刘连芳;;平行语料库的相似语句去重算法[J];广西科学院学报;2009年04期
9 邹小芳;王明文;左家莉;余美华;;新的基于中间语义的多语言信息检索模型[J];小型微型计算机系统;2010年04期
10 熊超;王明文;吴福英;吴世勇;沈阳;;基于潜在语义对偶空间的跨语言文本分类研究[J];广西师范大学学报(自然科学版);2010年01期
11 李伯约;白若冰;刘井玉;姜妮;向健雄;;基于英汉平行语料库的汉语信息处理研究[J];外国语言文学研究;2004年04期
12 艾山·毛力尼亚孜;谭勋;吐尔根·依布拉音;艾山·吾买尔;;汉维哈柯双语语料库加工系统词对齐技术的研究[J];电脑知识与技术;2011年28期
13 安纪霞;李锡祚;宋冰;曾伟;;服务于词典编纂的特定领域专业术语自动抽取[J];计算机与数字工程;2007年11期
14 梁铭;;基于英汉平行语料库术语词典的自动抽取[J];电脑知识与技术;2009年19期
15 黄瑾;吕雅娟;刘群;;基于信息检索方法的统计翻译系统训练数据选择与优化[J];中文信息学报;2008年02期
16 金澎;吴云芳;俞士汶;;词义标注语料库建设综述[J];中文信息学报;2008年03期
17 陈立弘;;实义词和相对位置的双语平行语料库自动构建[J];电脑知识与技术;2009年21期
18 林政;吕雅娟;刘群;马希荣;;Web平行语料挖掘及其在机器翻译中的应用[J];中文信息学报;2010年05期
19 于新;吴健;洪锦玲;;基于词典的汉藏句子对齐研究与实现[J];中文信息学报;2011年04期
20 李亮;;英语语料库检索工具的设计理念及其深层化[J];外语电化教学;2007年06期
中国重要会议论文全文数据库 前5条
1 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 赵维纳;刘汇丹;于新;吴健;张普;;面向汉藏辅助翻译系统的平行语料库建设[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
3 王继辉;;MTI+CAT翻译硕士联合培养模式探讨[A];全国首届翻译硕士(MTI)教育与翻译产业研讨会论文集[C];2009年
4 梁建飞;吐尔根·依布拉音;;基于Web的双语平行网页自动获取技术的研究现状及分析[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 徐金安;蒋俊杰;;基于N-gram的无参考译文机器翻译自动评测方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
中国博士学位论文全文数据库 前8条
1 李安兴;双语语料库与汉英词典词目翻译质量的进一步提高[D];复旦大学;2005年
2 郑连忠;析取关系的语言表达[D];上海外国语大学;2013年
3 潘智丹;淡妆浓抹总相宜:明清传奇的英译[D];苏州大学;2009年
4 刘克强;《水浒传》四英译本翻译特征多维度对比研究[D];上海外国语大学;2013年
5 朱泽德;网络双语语料挖掘关键技术研究[D];中国科学技术大学;2014年
6 余泽超;英汉叙述语篇中句内下指现象的认知功能阐释[D];上海外国语大学;2008年
7 李金莲;基于平行语料库的中日被动句对比研究[D];山东大学;2010年
8 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 洪娜;Conparat平行语料库平台的功能评价[D];河南师范大学;2011年
2 吕孟巧;基于平行语料库的汉语译文语言分析[D];广西大学;2013年
3 韩朝阳;网络数据挖掘在平行语料库中的应用研究[D];河南师范大学;2012年
4 冯艳卉;基于Web的大规模平行语料库构建方法研究[D];苏州大学;2012年
5 姬岳江;《论语》汉英平行语料库建设及其翻译教学实践[D];西南科技大学;2013年
6 薛松;汉英平行语料库中名词短语对齐算法的研究[D];中国科学院研究生院(软件研究所);2003年
7 佟晓辉;唐诗英译的语料库辅助研究[D];大连海事大学;2007年
8 仝丹;《西游记》中文化内涵数字表达的汉英翻译研究[D];大连海事大学;2008年
9 吴进善;汉英文本对应单位转换分析—语料库驱动研究[D];河南师范大学;2007年
10 毕雪华;汉维双语语料库中句子对齐技术的研究[D];新疆大学;2006年
中国重要报纸全文数据库 前1条
1 全国彝语术语标准化工作委员会主任,西南民族大学副校长、二级教授、博士生导师,国务院学位委员会学科评审组成员 沙马拉毅;彝文规范30年,实践与成就[N];中国民族报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978