收藏本站
收藏 | 论文排版

汉英双语语料库自动对齐研究

王斌  
【摘要】:自然语言处理是对自然语言的形、音、义等信息进行操作和加工的一门学科。当今社会,随着计算机的日益普及,信息化程度的日益提高,人类交流的日趋频繁,对自然语言理解技术的需求也越来越大。 自然语言处理包括两种基本的研究方法:理性主义研究方法和经验主义研究方法。根据它们在实际的自然语言处理中的不同表现,它们又通常可以称为基于规则的方法和基于语料库的方法。由于这两种方法之间可以取长补短,所以将这两者相结合成了当前自然语言研究的趋势之一。具体地,这种趋势表现为,许多研究开始着重于从大规模语料库中抽取语言知识的规律,然后利用这些规律来指导自然语言处理的过程。 根据所含语言种类的多少,语料库可以分为单语语料库和多语语料库。前者只含有单独的一种语言的文本,而后者却含有多种语言的对照互译文本。多语语料库中最典型的就是包含两种语言互译文本的双语语料库。由于双语语料库含有两种语言之间的互译对照信息,因此它对于这两种语言之间双语方面的自然语言处理具有极其重要的研究和应用价值。正因为如此,双语库的建立和加工便成了当前语料库技术中的重要研究课题。 双语语料库处理的关键技术之一是对齐,即在双语文本中找到互为翻译的源文和译文片段。对齐的单位包括篇章、段落、句子、短语、单词甚至字符等等,不同的自然语言应用要求做到不同单位的对齐。 汉语和英语作为世界上最具典型的两种不同语言,在自然语言处理的对象当中具有相当重要的地位。建立一个合适的汉英双语语料库,对于汉语和英语的双语方面的研究具有十分重要的意义。然而,迄今为止,针对汉英双语语料库对齐方面的研究却相对贫乏,这是本文的研究动机所在。 本文对汉英双语语料库对齐工作进行了详尽的考察和研究,取得了以下成果: 1、针对英语句子边界的歧义,本文提出了一种基于规则、错误驱动的英语句子边界辨识规则学习算法。通过学习算法的训练,可以从语料库中获取英语句子边界的辨识规则,避免了手工获取规则的大工作量和所得规则的不科学性和不一致性。 2、双语语料库自动段落对齐在以往的许多研究中没有受到应有重


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王斌,刘群,张祥;汉英双语库自动分段对齐研究[J];软件学报;2000年11期
2 李芳,盛焕烨;双语词汇自动获取系统[J];上海交通大学学报;2001年09期
3 李俊;薛永增;赵铁军;;常用统计翻译模型在口语汉英翻译中的比较研究[J];计算机应用研究;2007年06期
4 吴宏林 ,吕学强 ,任飞亮 ,赵英科 ,姚天顺;基于语料库的最小求交词对齐[J];小型微型计算机系统;2004年07期
5 陈立弘;;实义词和相对位置的双语平行语料库自动构建[J];电脑知识与技术;2009年21期
6 王斌;基于未对齐汉英双语库的翻译对抽取[J];中文信息学报;2000年06期
7 刘群;机器翻译技术的发展及其应用[J];术语标准化与信息技术;2002年01期
8 吕学强,吴宏林,姚天顺;无双语词典的英汉词对齐[J];计算机学报;2004年08期
9 胡国全,陈家骏,戴新宇,尹存燕;一种基于实例的汉英机器翻译策略[J];计算机工程与设计;2005年04期
10 杨寿勋;《统计自然语言处理基础》评介[J];外语教学与研究;2001年04期
11 王兰成;关于智能情报数据库系统的若干探索[J];情报理论与实践;1990年01期
12 邵品洪;自然语言处理在情报检索中的应用[J];现代图书情报技术;1994年03期
13 吕西安·马尔柰夫,保尔·若利昂;简论自然语言处理的连接网络法[J];中文信息学报;1997年02期
14 张琳琳,宋继平,王能忠;基于核心推导的句法分析[J];西南师范大学学报(自然科学版);1997年03期
15 许建潮,胡明,时密林;文书类档案的主题标引研究[J];情报学报;1998年04期
16 许建潮,胡明;文书类档案的分类标引研究[J];情报学报;1999年03期
17 雷鸣,刘建国,王建勇,陈葆珏;一种基于词典的搜索引擎系统动态更新模型[J];计算机研究与发展;2000年10期
18 闫琪,张志伟,宁洪;用户搜索请求中限定成分的识别及提取[J];计算机工程与科学;2000年03期
19 王长胜,刘群;双语语料库的检索和管理[J];计算机工程与应用;2002年07期
20 左远清,周洞汝,王波;自然语言处理在搜索引擎信息检索中的应用[J];现代计算机;2002年07期
中国重要会议论文全文数据库 前10条
1 华却才让;;藏汉句子局部对齐策略的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 田亮;黄辉;周沁;;面向短语的词语对齐方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 赵维纳;刘汇丹;于新;吴健;张普;;面向汉藏辅助翻译系统的平行语料库建设[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 李贤华;郑仲光;孟遥;于浩;;第七届全国机器翻译研讨会(CWMT2011)富士通研究开发中心技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
6 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
8 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
9 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
2 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
3 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
4 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
5 方淼;语义单元自动获取研究[D];大连理工大学;2008年
6 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
7 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
8 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
9 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
10 刘宇鹏;机器翻译中系统融合技术的研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 张慧;汉语句法分析及其在汉英统计翻译中的应用[D];厦门大学;2007年
2 庞珊娜;基于Web的双语资源信息抽取研究[D];天津大学;2008年
3 焦世斗;大规模网页中双语命名实体挖掘的研究与实现[D];大连理工大学;2009年
4 谭勋;维吾尔语句子中词聚类及其汉维词对齐的研究[D];新疆大学;2012年
5 林哲辉;基于浅层句法分析的翻译模板自动获取研究[D];厦门大学;2008年
6 刘建明;基于统计机器翻译的汉维词对齐研究[D];新疆大学;2010年
7 麦丽开·阿布德瓦力;面向机器翻译的汉维词语对齐规范[D];新疆大学;2012年
8 骆凯;基于形态句法信息的短语翻译模型研究[D];中国科学技术大学;2009年
9 颜振祥;互联网双语资源挖掘关键技术研究[D];苏州大学;2010年
10 李函章;统计机器翻译中语料选择方法研究[D];黑龙江大学;2010年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 宋志明;显示对象快速对齐[N];中国电脑教育报;2003年
4 宗建华 李彤 朱华昌;和竞争对手一起赚钱 [N];中国石化报;2003年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
7 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
8 蔡峻;也看Word中的对齐问题[N];中国电脑教育报;2004年
9 许向前;巧用表格让选择题选项对齐[N];中国电脑教育报;2003年
10 丁健 张万军 江南;右顺序对齐菜单实现方法[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978