收藏本站
《南京师范大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

论汉英平行语料的平行处理

冯敏萱  
【摘要】:平行语料库研究是近年来语料库语言学横向发展的新趋势。人们已经清楚认识到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。但与单语语料库相比,汉英平行语料库无论在规模还是质量上都有较大差距。 为了进一步提高汉英平行语料的加工精度以适应建设和利用大规模平行语料的要求,本文以汉英平行语料的平行处理为主要研究对象,旨在利用双语信息,尤其是来自另一语言的信息来解决平行语料中某一语言的歧义问题。 本项研究主要取得了以下几方面成果: 第一,系统研究了平行处理技术。不仅明确了平行处理的含义,它在平行语料加工中的地位及价值,以及平行语料中用于消歧的语言资源层次及类别等等,而且还通过实验详细论证了平行处理技术在未登录词识别、词性标注、词义标注及句法分析等自然语言处理各层面的利用方法及有效性。 第二,平行处理技术是汉—英和英—汉双向的。我们不仅利用英语来解决汉语的歧义问题,包括汉语未登录词识别、汉语兼类词和多义词标注以及汉语“动词+名词”短语类型识别等,而且也利用汉语来解决英语歧义,例如英语的词性消歧和词义消歧等。 第三,在未经词汇对齐的平行语料中,实践了基于个性规则的词性、词义消歧方法。统计模型适于自动处理数据密集的问题,本文对英语人名汉译名的平行识别就主要使用了统计方法,精确率达到99.45%。而对于一些统计处理消歧效果较差、但出现频率又很高的词语,我们手工编写针对性极强的消歧规则。这些规则具有不受上下文长度和模板数量限制、特别适合于双语平行处理、消歧效果好等优点。我们为5个典型兼类词(过去、计划、与、back、so)和5个典型多义词(地方、所有、等、since、state)设计的平行处理算法,在大规模英汉或汉英平行语料中得到了验证,观察语料中的标注精确率均为100%,各类型语料中的总体精确率最高为100%,最低的也达到了96.59%,这比目前仅利用单语进行词性和词义消歧的成绩有了大幅度提高。 第四,精加工了1000句对的汉英平行语料。我们首先统计分析了这1000句对中汉英双语的词频、字词录入错误、普通未登录词、兼类词和多义词以及汉语的分词歧义字段、“动词+名词”序列等信息,然后利用平行处理技术,结合人工校对,消除了其中全部的句对齐、字词录入、分词和词性j际注错误,以此作为今后建设和加工大规模平行语料的可信资源。 综上所述,统计和规则相结合的平行处理技术,可以有效解决平行语料库中汉语或英语在单语处理时的许多困难问题,有利于更好地实现汉英机器翻译知识的自动获取。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 雨丝;;108个瓶子让他不再小看自己[J];青年科学;2007年01期
2 本刊记者;;2003自然语言处理与知识工程国际会议将在中国北京举行[J];语言科学;2003年03期
3 秦玮远;;自然语言中副语言的逻辑处理[J];现代语文(语言研究版);2007年07期
4 冯志伟;;自然语言处理中的一些宏观问题之我见[J];中国外语;2009年05期
5 陈肇雄,王英姿;我国智能型机器翻译研究获重要成果[J];中国科学基金;1997年03期
6 常宝宝;;自然语言分析与生成术语简介[J];术语标准化与信息技术;2010年04期
7 张禄彭;;面向自然语言处理的歧义概念[J];解放军外国语学院学报;2007年05期
8 田怀凤;;基于多策略的专业术语抽取处理技术的研究[J];计算机与现代化;2008年12期
9 李海艳;;语义距离的计算与感知[J];法国研究;2010年03期
10 徐臻;;试论语言工程的开发[J];黑龙江高教研究;1984年02期
11 吕西安·马尔柰夫,保尔·若利昂;简论自然语言处理的连接网络法[J];中文信息学报;1997年02期
12 陆俭明;;要重视特征的研究与描写[J];长江学术;2006年01期
13 赵铁军;朱聪慧;;世界最大的自然语言处理和语音技术实验室——哈尔滨工业大学语言语音教育部-微软重点实验室[J];计算机教育;2007年11期
14 黄昌宁,周明;亚太地区自然语言处理的学术盛会——记在韩国汉城召开的NLPRS’95[J];当代语言学;1996年02期
15 魏长宏;张春柏;;机器翻译的译后编辑[J];中国科技翻译;2007年03期
16 李可胜;;语言学中的形式语义学[J];中国社会科学院研究生院学报;2009年02期
17 宗成庆;曹右琦;俞士汶;;中文信息处理60年[J];语言文字应用;2009年04期
18 柏晓静;俞士汶;朱学锋;;自然语言处理中的技术评测及关于英语专业考试的思考[J];外语电化教学;2010年01期
19 祝清松;;我国自然语言处理研究的文献计量分析[J];情报杂志;2009年S2期
20 F·Z·;自然语言处理学术讨论会在京举行[J];语文建设;1989年04期
中国重要会议论文全文数据库 前10条
1 邓宾;余正涛;韩露;车文刚;郭剑毅;;基于信息增益改进贝叶斯词义消歧模型[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 郎君;刘挺;张会鹏;李生;;LTP:语言技术平台[A];第三届学生计算语言学研讨会论文集[C];2006年
4 郎君;刘挺;李生;张会鹏;;基于XML的开放式语言技术平台:LTP[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 王萌;;现代汉语综合型语言知识库[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
6 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
7 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 吴崇斌;张全;;上下文边界可变的贝叶斯分类器词义消歧方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
10 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
2 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
3 车超;知识自动获取的词义消歧方法[D];大连理工大学;2010年
4 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
5 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
6 秦颖;汉语词和短语的歧义消解研究[D];北京邮电大学;2008年
7 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
8 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
9 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
10 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
2 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
3 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
4 闫蓉;基于语义的汉语词义消歧方法研究[D];西北大学;2006年
5 柴晓丽;自动文摘技术的研究与应用[D];长春理工大学;2007年
6 马龙;基于条件随机域模型的中文地名识别的研究[D];大连理工大学;2009年
7 史俊冰;问答系统中词义消歧与关键词扩展研究[D];太原理工大学;2011年
8 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
9 汤小娜;词义消歧在统计机器翻译中的应用研究[D];厦门大学;2007年
10 庞珊娜;基于Web的双语资源信息抽取研究[D];天津大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978