收藏本站
《北京交通大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于英汉平行语料库的机器翻译知识获取研究

陈亮  
【摘要】:随着互联网信息资源的不断膨胀,人们可以通过互联网获取的资源也日益增加。目前世界上已知的语言约有3000多种,机器翻译及机器翻译知识的自动获取研究对人们突破语言障碍,充分利用互联网信息具有很强的现实意义。 本文主要围绕以下几个方面进行了深入的研究: 1)词汇对齐。词汇对齐是从英汉平行语料库中,根据已有的句子级对齐的语料库,挖掘出词汇级的英汉词对应关系。对机器翻译、语义消歧、翻译词典获取以及跨语言信息检索等都具有重要的意义。 2)短语对齐。短语对齐能够反映出平行句对在短语级别上的对应关系,短语对齐也是机器翻译知识获取领域的一个重要研究工作。 3)句法结对齐。句法结构对齐是对双语句法结构树进行分析和总结,提取出双语句子在句法结构以及句子成分上的对应关系。句法结构对齐的结果能够直接应用于短语对齐的工作中。 4)机器翻译知识的应用。通过对双语平行语料库的知识挖掘,并且运用到机器翻译中,进行翻译前后的对比,可以看出机器翻译知识获取对机器翻译的质量的改善。 研究取得的主要成果如下: 1)在词对齐方面,我们提出了基于N-Gram语言模型的多词对齐算法,有效的解决了对于词对齐过程中存在的一对多和多对多的对齐问题。并且实现了一个有效的英汉、汉英双语翻译词典。 2)在短语对齐方面,鉴于句子结构的复杂性,我们提出了分类短语对齐的思想,把短语对齐分成了名词性短语、动词短语、形容词性短语以及副词短语。实验结果显示分类词对齐能够很好的提高短语对齐的准确性。同时,设计了一个能够提取双语短语互译单元的系统。 3)建立了一个完整的基于英汉双语平行语料库的机器翻译知识获取系统。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.2

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 于海江;;平行语料库与双语词典编纂[J];辞书研究;2006年01期
2 刘群;;机器翻译研究新进展[J];当代语言学;2009年02期
3 任志敏;蔡东风;尹宝生;;一种高效的基于启发式规则和词典相结合的双语词对齐方法[J];沈阳航空工业学院学报;2010年05期
4 李德俊;;英汉平行语料库在双语词典编纂中的作用[J];解放军外国语学院学报;2006年03期
5 吕雅娟,赵铁军,李生;单语句法分析指导的双语结构对齐[J];计算机研究与发展;2003年07期
6 张春祥;李生;赵铁军;;基于中心语块扩展的短语对齐[J];计算机研究与发展;2006年09期
7 郭永辉,吴保民,王炳锡;一个基于GLR算法的英汉机器翻译浅层句法分析器[J];计算机工程与应用;2004年34期
8 戴新宇;尹存燕;陈家骏;郑国梁;;机器翻译研究现状与展望[J];计算机科学;2004年11期
9 徐金安;;理性主义与经验主义相结合的机器翻译研究策略[J];计算机科学;2011年06期
10 吕学强,吴宏林,姚天顺;无双语词典的英汉词对齐[J];计算机学报;2004年08期
中国博士学位论文全文数据库 前2条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 吕学强;舒燕;施水才;;搜索日志中“V+N”、“V+V”型短语识别[J];北京信息科技大学学报(自然科学版);2012年02期
2 刘海燕;;现代汉语的方位短语及其相关结构[J];重庆文理学院学报(社会科学版);2009年06期
3 李绍群;;面向计算机的现代汉语“名_1+名_2”结构类型研究[J];重庆工商大学学报(社会科学版);2006年06期
4 于海江;;平行语料库与双语词典编纂[J];辞书研究;2006年01期
5 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
6 王跃龙;姬东鸿;;汉语树库综述[J];当代语言学;2009年01期
7 梁铭;;基于英汉平行语料库术语词典的自动抽取[J];电脑知识与技术;2009年19期
8 阿布都克力木·阿不力孜;哈里旦木·阿布都克里木;吐尔根·依布拉音;帕里旦·吐尔逊;艾山·吾买尔;;基于自顶向下算法的维吾尔语句法分析初探[J];电脑知识与技术;2010年05期
9 童毅见;;基于平行语料库的英语人名译名识别[J];大学英语(学术版);2012年01期
10 吕学强,张乐,黄志丹,胡俊峰;基于散列技术的快速子串归并算法[J];复旦学报(自然科学版);2004年05期
中国重要会议论文全文数据库 前10条
1 李艳娇;杨尔弘;;树库中的歧义组合考察[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 余丽娜;曾东京;;框架语义学在双语网络词典编纂中的应用——从FrameNet看语义和语法标注[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
3 徐德宽;;现代汉语双宾构造中两个宾语的题元角色[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 邹晓辉;;优化“语义信息处理”的新方法与实施例——从“一词泛读”到“释义字组”再到“一字精读”[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 吴保民;郭永辉;王炳锡;;英汉机译系统中基于规则的句子结构分析与转换[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
6 尚英;;动词重叠形式的自动识别方法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 李向阳;张亚非;;一种基于语义的汉语短语识别方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 扎洛;索南仁欠;;语言信息处理的现代藏语词性分类方法研究[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
10 才让加;吉太加;;基于藏语语料库的词类分类方法研究[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
3 冯文贺;汉语连词及其相关结构的依存分析[D];武汉大学;2011年
4 汪梦翔;对象格语义范畴及其相关语法理论研究[D];华中师范大学;2012年
5 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
6 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
7 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
8 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
9 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年
10 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
中国硕士学位论文全文数据库 前10条
1 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
2 孟桂国;基于维基百科的双语语料挖掘技术研究[D];苏州大学;2010年
3 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
4 王莹;从互联网上挖掘双语语料的研究与实现[D];华东师范大学;2011年
5 李亚洲;文本分类语料库自动构建系统的研究与改进[D];武汉理工大学;2011年
6 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
7 袁苾瑜;基于依存树库的英语名词句法研究[D];浙江大学;2011年
8 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年
9 包萨仁图雅;蒙古语简单句句法结构树库的建设[D];内蒙古大学;2011年
10 朱敬国;基于GLR算法的维吾尔语句法分析研究[D];新疆大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 吕琳,周世斌,刘玉树;一种高性能英文词性标注器的设计与实现[J];北京理工大学学报;2005年10期
2 李安兴;语料库与汉英词典条目释义质量的提高[J];辞书研究;2003年05期
3 王馥芳,罗敏莉;语料库词典学的兴起与发展[J];辞书研究;2004年05期
4 冯志伟;;特思尼耶尔的从属关系语法[J];国外语言学;1983年01期
5 顾曰国;语料库与语言研究——兼编者的话[J];当代语言学;1998年01期
6 丁信善;语料库语言学的发展及研究现状[J];当代语言学;1998年01期
7 王伯浩;几个大的语料库评介[J];当代语言学;1998年01期
8 陈建生;语篇的自动词性附码[J];当代语言学;1998年01期
9 张小衡,石定栩;面向语料库处理的CDBMS和CSQL[J];当代语言学;1998年01期
10 王建新;索引软件:语料库语言学的有力工具[J];当代语言学;1998年01期
中国重要会议论文全文数据库 前2条
1 吕雅娟;赵铁军;李生;杨沐昀;;统计和词典方法相结合的双语语料库词对齐[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 李宇明;;信息时代的语言问题(代序)[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前1条
1 吴月辉;[N];人民日报海外版;2008年
【相似文献】
中国期刊全文数据库 前10条
1 冯志伟;;机器翻译和人机对话中语言自动分析的新方法[J];情报科学;1987年01期
2 杨宪泽;肖明;;转换式机器翻译过程的相关处理研究[J];电脑与电信;2008年09期
3 袁琦;中文信息技术和自然语言处理[J];中文信息学报;1986年01期
4 王挺;陈火旺;史晓东;;语料库和机器翻译[J];计算机科学;1996年02期
5 冯志伟;;机器翻译今昔谈[J];金秋科苑;1997年04期
6 李剑 ,王波 ,郭永辉 ,王炳锡;英汉机器翻译中基于模式的译文生成[J];微计算机信息;2005年20期
7 ;计算机检索、机器翻译编辑、自动标引、自动文摘等[J];电子科技文摘;2006年02期
8 张健青;贾欣岚;;英汉机器翻译中一些问题的探讨[J];术语标准化与信息技术;2008年04期
9 史晓亮;;英汉机器翻译中语言陷阱的自动检索标识方法[J];科技信息;2011年03期
10 龚文涛,徐国桓,武立莹,刘会霞,张世红;信息检索技术的发展概况及趋势[J];医学情报工作;2001年03期
中国重要会议论文全文数据库 前10条
1 奚宁;赵迎功;汤光超;李中华;刘友强;戴新宇;陈家骏;;南京大学第七届机器翻译研讨会评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
2 周玉;翟飞飞;张家俊;涂眉;陈钰枫;宗成庆;;多语言文本机器翻译系统——中科院自动化所CWMT2011评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 姚天顺;杨莹;;关于机器翻译的评测问题[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 何彦青;石崇德;于薇;张均胜;王惠临;;中国科学技术信息研究所CWMT'2011技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 梁芳丽;陈雷;李淼;何绵涛;刘绘;;第七届全国机器翻译研讨会中科院智能所评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
6 希夏姆.马利克;;汉阿机译研究(一) 从汉语单句若干结构谈论汉阿机译[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 肖桐;张浩;李强;路琦;朱靖波;任飞亮;王会珍;;CWMT2011东北大学参评系统NiuTrans介绍(英文)[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
8 麦热哈巴.艾力;米日古.肉孜;撒依达;江阿古丽;吐尔根.伊布拉音;;新疆大学CWMT2011评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 李贤华;郑仲光;孟遥;于浩;;第七届全国机器翻译研讨会(CWMT2011)富士通研究开发中心技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
10 赵红梅;吕雅娟;贲国生;黄云;刘群;;第七届全国机器翻译研讨会(CWMT2011)评测报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 凌子浪;机器翻译的未来不可估量[N];计算机世界;2001年
2 《中国电脑教育报》记者 晨风;机器翻译如何是好?[N];中国电脑教育报;2001年
3 赵迎华;机器翻译如何是好[N];光明日报;2001年
4 ;机器翻译在电子政务系统建设中的应用[N];中国电脑教育报;2004年
5 ;机器翻译 在电子政务系统建设中的应用[N];中国电脑教育报;2004年
6 刘 莎;语义约定全文翻译: 机器翻译的“日心说”?[N];计算机世界;2002年
7 何艳霞;韩国完善专利信息系统机器翻译和英文检索功能[N];中国知识产权报;2007年
8 刘仁;“语义分析”升级专利机器翻译[N];中国知识产权报;2008年
9 李佳师;拓展嵌入式空间 中软可借力微软[N];中国电子报;2007年
10 刘素元、艾文;给机器翻译装上“大脑”[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 王斯日古楞;基于混合策略的汉蒙机器翻译及相关技术研究[D];内蒙古大学;2009年
2 刘宇鹏;机器翻译中系统融合技术的研究[D];哈尔滨工业大学;2011年
3 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
4 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
5 百顺;日蒙机器翻译及相关技术研究[D];内蒙古大学;2012年
6 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
7 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
8 雒自清;语义块类型、构成及变换的分析与处理[D];中国科学院研究生院(声学研究所);2004年
9 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
10 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
中国硕士学位论文全文数据库 前10条
1 陈亮;基于英汉平行语料库的机器翻译知识获取研究[D];北京交通大学;2012年
2 惠聪;机器翻译中的高级对齐技术和开发集选择策略研究[D];上海交通大学;2012年
3 朱晓宁;基于语言学知识的机器翻译自动评价研究[D];哈尔滨工业大学;2011年
4 计丽丽;基于混合策略的机器翻译研究[D];安徽理工大学;2012年
5 王内;文学材料和非文学材料机器翻译适用性比较研究[D];湖南师范大学;2012年
6 朱俊国;机器翻译自动评价计算粒度研究[D];哈尔滨工业大学;2010年
7 麦丽开·阿布德瓦力;面向机器翻译的汉维词语对齐规范[D];新疆大学;2012年
8 李平;基于Internet的人机互助机器翻译技术的研究[D];内蒙古大学;2012年
9 赵小曼;英汉平行语料库句子级对齐研究及其在机器翻译中的应用[D];安徽大学;2010年
10 李彧;构建集成系统:基于规则与统计数据的机器翻译[D];广东商学院;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026