收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

英汉双语短语对齐

屈刚  
【摘要】: 当今自然语言处理最见成效而且被普遍应用的是统计方法。这不仅是因为自然语言普遍存在不确定性,传统的理性主义规则方法显得力不从心;而且从人力资源的成本和经济效益来看,语料库方法受到普遍的青睐。尤其在重现频率高、实际使用面广泛的专用领域的机器翻译中,双语语料库的加工具有重要的应用价值,也同样有理论意义。 双语短语对齐指揭示对译的句子之间短语层次上的对应关系,是双语语料库加工的重要环节。短语对齐的双语语料库可用于翻译知识的自动获取。本系统的输入是面向特定领域的、句子对齐的、未经切分词性标注的英汉双语语料库,输出是短语对齐的双语句法树库。 传统的双语短语对齐思路是分别对源语言、目标语言进行句法分析,经排歧后得出一对句法树对,然后对这对句法树对进行短语对齐。该方法的缺陷是对齐正确率受句法分析正确率影响很大。 本文利用双语的特点,在“两种语言比一种语言含有更多的信息”认识的基础上,提出同时进行句法消歧和短语对齐的思路。以源语言句作为目标语言句的附加信息排除目标语言句的歧义;同时以目标语言句作为源语言句的附加信息排除源语言句的歧义。使排歧在两种语言之间进行。这样同时分析两种语言反而比分析一种语言还要容易,难度上体现出“1+11”的优越性。 实现这一目标的理论基础是反映对译的源语言句法树和目标语言句法树之间对应和约束关系的对齐模型。由于对译的两种语言的句法树间通常不存在简单的对应关系,所以如何克服翻译中异常现象的干扰,揭示出其间复杂对应关系是主要难点。现有理论只能处理简单语序调整情况,而对其它翻译异常无能为力。本文提出了翻译中的相对不变准则,并在此基础上提出了基于抽象句法树的对齐模型,不但能处理语序调整情况,还能处理其它翻译异常。 词性标注是对齐的预处理环节。本文提出了具有双重状态的隐马尔可夫词性标注模型。汉语词性标注的困难在于确定兼类词的词性。兼类词在汉语词典中仅占很小的比例(约为1500个),因此,本文对兼类词进行特殊处理,使每个兼类词具有一个专有的状态转移概率矩阵。标注过程中遇到兼类词时,不但使用常规的状态转移概率信息,同时还结合特定兼类词的状态转移概率信息,计算兼类词上下文中的状态转移概率,对属于同一词类的不同词区别对待,从而提高了模型的精确性。由于兼类词的数目小且使用频率高,所以不会受到存储空间和数据稀疏问题的影响。 前期语料库准备工作中研究使用的双语语料库是汽车使用说明书方面的专业领域语料库,由作者负责组织和加工,花费5个人年、历时半年完成。该语料库由2.6万对句子对构成,约60万字/100万单词。经过反复检查获得较好的一致性,保证了语料库的翻译质量,也为双语句法树库提供了必要条件。 系统实现分为三大模块:资源管理模块(包括英语语料库管理、汉语语料库管理、英语词典管理、汉语词典管理),提供词典和语料库的查询和修改功能;对齐预处理模块(包括英语词形分析和词性标注、汉语分词和词性标注、英语句法分析、汉语句法分析、英汉串频统计、术语获取),生成候选句法树对集合;对齐模块(包括句子对齐、词汇对齐和短语对齐),生成对齐的句法树对。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 雨丝;;108个瓶子让他不再小看自己[J];青年科学;2007年01期
2 魏长宏;张春柏;;机器翻译的译后编辑[J];中国科技翻译;2007年03期
3 本刊记者;;2003自然语言处理与知识工程国际会议将在中国北京举行[J];语言科学;2003年03期
4 秦玮远;;自然语言中副语言的逻辑处理[J];现代语文(语言研究版);2007年07期
5 任志敏;蔡东风;尹宝生;;一种高效的基于启发式规则和词典相结合的双语词对齐方法[J];沈阳航空工业学院学报;2010年05期
6 冯志伟;;自然语言处理中的一些宏观问题之我见[J];中国外语;2009年05期
7 常宝宝;;自然语言分析与生成术语简介[J];术语标准化与信息技术;2010年04期
8 张禄彭;;面向自然语言处理的歧义概念[J];解放军外国语学院学报;2007年05期
9 田怀凤;;基于多策略的专业术语抽取处理技术的研究[J];计算机与现代化;2008年12期
10 李海艳;;语义距离的计算与感知[J];法国研究;2010年03期
11 徐臻;;试论语言工程的开发[J];黑龙江高教研究;1984年02期
12 吕西安·马尔柰夫,保尔·若利昂;简论自然语言处理的连接网络法[J];中文信息学报;1997年02期
13 陆俭明;;要重视特征的研究与描写[J];长江学术;2006年01期
14 赵铁军;朱聪慧;;世界最大的自然语言处理和语音技术实验室——哈尔滨工业大学语言语音教育部-微软重点实验室[J];计算机教育;2007年11期
15 黄昌宁,周明;亚太地区自然语言处理的学术盛会——记在韩国汉城召开的NLPRS’95[J];当代语言学;1996年02期
16 李可胜;;语言学中的形式语义学[J];中国社会科学院研究生院学报;2009年02期
17 宗成庆;曹右琦;俞士汶;;中文信息处理60年[J];语言文字应用;2009年04期
18 柏晓静;俞士汶;朱学锋;;自然语言处理中的技术评测及关于英语专业考试的思考[J];外语电化教学;2010年01期
19 祝清松;;我国自然语言处理研究的文献计量分析[J];情报杂志;2009年S2期
20 F·Z·;自然语言处理学术讨论会在京举行[J];语文建设;1989年04期
中国重要会议论文全文数据库 前10条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国博士学位论文全文数据库 前10条
1 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
2 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
3 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
4 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
5 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
6 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
7 袁彩霞;中文功能组块分析及应用研究[D];北京邮电大学;2009年
8 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
9 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
10 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
中国硕士学位论文全文数据库 前10条
1 张慧;汉语句法分析及其在汉英统计翻译中的应用[D];厦门大学;2007年
2 杨国基;汉语中基于短语结构的语义提取[D];天津大学;2007年
3 焦世斗;大规模网页中双语命名实体挖掘的研究与实现[D];大连理工大学;2009年
4 王思宽;基于规则和基于统计相结合的中英双语平行句对短语对齐方法[D];北京邮电大学;2010年
5 庞珊娜;基于Web的双语资源信息抽取研究[D];天津大学;2008年
6 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
7 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
8 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
9 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
10 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
8 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
9 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
10 ;开天辟地第一回[N];计算机世界;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978