收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

海量语言模型的研究及其在机器翻译中的应用

张润延  
【摘要】: 近年来,随着自然语言处理技术的发展和大规模语料库的出现,各类自然语言应用中使用的语言模型规模也越来越大。机器翻译是大规模语言模型的主要应用领域之一,语言模型有助于机器翻译时选择更符合目标语言习惯的翻译项,研究结果表明,语言模型训练语料的增大可以稳定地提高翻译的效果。故海量语言模型成为近年来统计语言模型研究的一个热点。 本文对统计语言模型的重要技术和发展脉络进行了整理和分析,并在此基础上设计并实现了一套海量语言模型训练工具和一组海量语言模型调用接口,并把在Google Web 1T语料库上训练得到的海量语言模型应用到机器翻译中。 首先,我们设计并实现了可用于Google Web 1T语料库的海量语言模型训练工具。通过采用紧凑合理的数据结构、更简单的平滑算法、概率离散化等方法来优化空间代价,提高性能,使其可以真正在统计机器翻译系统中使用。通过此训练工具,我们可以完成语言建模任务,生成语言模型文件。 接下来,我们设计并开发了供机器翻译等自然语言应用调用海量语言模型的接口。通过这些接口,其他自然语言应用可以访问已经生成的语言模型,获取词串的概率。针对不同的需求,提供有以下三种语言模型调用方式:通过动态链接库直接调用;通过与语言模型服务器通信来调用;通过与分布式语言模型服务器通信来调用。动态链接库的调用方式效率最高;语言模型服务器对客户端的要求较少,方便了客户端的开发;分布式语言模型服务器通过并行技术来提高I/O带宽,在提高性能的同时降低了对服务器的内存要求。 最后,我们在机器翻译系统中使用上述接口来访问基于Google Web 1T的海量语言模型。在NIST2008机器翻译评测测试语料上,机器翻译系统的BLEU得分,从20.54提高到21.96,提高约7%。初步体现了海量语言模型对机器翻译的帮助。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 侯宏旭;张国强;刘志文;;层次化蒙古语统计语言模型[J];内蒙古大学学报(自然科学版);2009年03期
2 李生;赵铁军;周明;王跃进;邱祥辉;;机器翻译语言模型的探讨[J];情报科学;1989年03期
3 汪劲;耿立大;;机器翻译及其基本概念和常用方法[J];情报科学;1988年02期
4 张亚军;;汉语-维吾尔语机器翻译解码器研究[J];昌吉学院学报;2011年03期
5 丁华福,李毅,尚福华;机器翻译质量自动评价的实践[J];黑龙江工程学院学报;2002年03期
6 银花;王斯日古楞;艳红;;基于短语的蒙汉统计机器翻译系统的设计与实现[J];内蒙古师范大学学报(自然科学汉文版);2011年01期
7 曾微维;郑善贤;成钢;;基于统计的机器翻译在嵌入式系统上的实现[J];计算机系统应用;2009年09期
8 杨攀;李淼;张建;;基于短语统计翻译的汉维机器翻译系统[J];计算机应用;2009年07期
9 王爽;熊德兰;王晓霞;;古文翻译系统的设计与实现[J];电脑知识与技术;2009年04期
10 刘志文;侯宏旭;宋美娜;李沙茹拉;;基于trigger对的长距离蒙古语语言模型的改进Katz平滑技术[J];内蒙古大学学报(自然科学版);2010年01期
11 刘金红,王挺,陆余良;基于XML的译文生成关键技术研究[J];计算机工程与科学;2005年08期
12 高俊涛;林煜熙;姚建民;;基于语言模型的机器翻译评价方法及其性能评价方法研究[J];中国科技信息;2008年20期
13 张春祥,赵铁军,杨沐昀,李生,时晓升;机器翻译系统跨领域移植方法的研究[J];计算机工程与应用;2005年03期
14 李维;关于E-ch/A世一汉/英机器翻译系统及其汉英目标语的综合[J];中文信息学报;1988年01期
15 侯宏旭;刘群;李锦涛;;一种基于短语的汉蒙统计机器翻译与调序模型[J];高技术通讯;2009年05期
16 孙守安;杨根科;杨祖华;;基于受限语料库的语言平滑算法比较研究[J];微型电脑应用;2010年12期
17 程一军;日本专家谈机器翻译系统[J];机器人;1985年03期
18 刘荣;;基于Web平台的机器翻译系统[J];山西电子技术;2006年05期
19 刘志文;侯宏旭;李沙茹拉;柳林;;基于trigger对的蒙古语语言模型的三种实现方法比较[J];中文信息学报;2009年06期
20 乔伊斯·赫德;刘敏;;翻译机逐渐精通多国事务的语言——机器翻译正在改进——翻译速度每小时可达十万词[J];情报科学;1986年03期
中国重要会议论文全文数据库 前10条
1 熊维;王震;于新;刘汇丹;诺明花;马龙龙;张立强;洪锦玲;吴健;;ISCAS机器翻译系统与评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
2 陈振标;徐波;;限定领域的语言模型[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
3 付晓寅;魏玮;徐波;;一种基于状态转移的N元语言模型快速查询方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
4 韩中元;李生;杨沐昀;齐浩亮;;面向信息检索的近邻语言模型[A];第六届全国信息检索学术会议论文集[C];2010年
5 潘璐;林煜熙;姚建民;;基于语言模型自动评价翻译质量方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 魏玮;于东;王韦华;徐波;;中科院自动化所评测技术报告(SYSTEMⅡ)[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
7 奚宁;赵迎功;汤光超;李斌;罗春勇;戴新宇;陈家骏;;统计机器翻译中多种语言模型的融合[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
8 努尔艾力·喀迪尔;彭良瑞;;基于SRILM的阿拉伯和维吾尔文语言模型建立方法[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 才藏太;;基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 王博;机器翻译系统的自动评价及诊断方法研究[D];哈尔滨工业大学;2010年
2 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
3 方淼;语义单元自动获取研究[D];大连理工大学;2008年
4 肖镜辉;非时齐语言建模技术研究及实践[D];哈尔滨工业大学;2007年
5 关晓薇;基于语义语言的机器翻译系统中若干关键问题研究[D];大连理工大学;2009年
6 刘鹏远;基于知识自动获取的无指导译文消歧方法研究[D];哈尔滨工业大学;2008年
7 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年
8 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
9 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
10 武斌;面向俄文信息处理的机器翻译实验研究[D];中国人民解放军外国语学院;2007年
中国硕士学位论文全文数据库 前10条
1 张润延;海量语言模型的研究及其在机器翻译中的应用[D];厦门大学;2009年
2 高俊涛;机器翻译评价的统计方法研究[D];苏州大学;2008年
3 李新生;基于改进语言模型的相关反馈方法的检索系统设计[D];北京邮电大学;2011年
4 刘盈;大词表连续语音识别系统的研究与实现[D];清华大学;2005年
5 朱海;基于混淆网络的机器翻译系统融合研究[D];中国科学技术大学;2010年
6 汤小娜;词义消歧在统计机器翻译中的应用研究[D];厦门大学;2007年
7 沈默;平板电脑上语言模型的开发与测试[D];清华大学;2005年
8 梁奇;语言模型自适应方法在嵌入式系统中应用的研究[D];清华大学;2006年
9 唐永明;基于关联词的复句语言模型[D];北京邮电大学;2009年
10 刘春泳;中文问答系统中信息检索模型的研究[D];重庆大学;2007年
中国重要报纸全文数据库 前10条
1 何中军米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
2 记者 刘阳子;中国专利信息传播与利用进入新阶段[N];中国知识产权报;2008年
3 熊德意何中军 刘群;机器翻译渐行渐近[N];计算机世界;2007年
4 中科院计算技术研究所 吕雅娟付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
5 ;我国首个基于搜索引擎的机器翻译系统问世[N];中国高新技术产业导报;2008年
6 董振东;到用户中去[N];中国计算机报;2003年
7 清华大学 刘加;识别语音的几种依据[N];计算机世界;2006年
8 黄瑾刘洋 刘群;机器翻译的自动评测技术[N];计算机世界;2007年
9 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
10 李开复;互联网七大趋势[N];21世纪经济报道;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978