收藏本站
《上海交通大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

英汉双语短语对齐

屈刚  
【摘要】: 当今自然语言处理最见成效而且被普遍应用的是统计方法。这不仅是因为自然语言普遍存在不确定性,传统的理性主义规则方法显得力不从心;而且从人力资源的成本和经济效益来看,语料库方法受到普遍的青睐。尤其在重现频率高、实际使用面广泛的专用领域的机器翻译中,双语语料库的加工具有重要的应用价值,也同样有理论意义。 双语短语对齐指揭示对译的句子之间短语层次上的对应关系,是双语语料库加工的重要环节。短语对齐的双语语料库可用于翻译知识的自动获取。本系统的输入是面向特定领域的、句子对齐的、未经切分词性标注的英汉双语语料库,输出是短语对齐的双语句法树库。 传统的双语短语对齐思路是分别对源语言、目标语言进行句法分析,经排歧后得出一对句法树对,然后对这对句法树对进行短语对齐。该方法的缺陷是对齐正确率受句法分析正确率影响很大。 本文利用双语的特点,在“两种语言比一种语言含有更多的信息”认识的基础上,提出同时进行句法消歧和短语对齐的思路。以源语言句作为目标语言句的附加信息排除目标语言句的歧义;同时以目标语言句作为源语言句的附加信息排除源语言句的歧义。使排歧在两种语言之间进行。这样同时分析两种语言反而比分析一种语言还要容易,难度上体现出“1+11”的优越性。 实现这一目标的理论基础是反映对译的源语言句法树和目标语言句法树之间对应和约束关系的对齐模型。由于对译的两种语言的句法树间通常不存在简单的对应关系,所以如何克服翻译中异常现象的干扰,揭示出其间复杂对应关系是主要难点。现有理论只能处理简单语序调整情况,而对其它翻译异常无能为力。本文提出了翻译中的相对不变准则,并在此基础上提出了基于抽象句法树的对齐模型,不但能处理语序调整情况,还能处理其它翻译异常。 词性标注是对齐的预处理环节。本文提出了具有双重状态的隐马尔可夫词性标注模型。汉语词性标注的困难在于确定兼类词的词性。兼类词在汉语词典中仅占很小的比例(约为1500个),因此,本文对兼类词进行特殊处理,使每个兼类词具有一个专有的状态转移概率矩阵。标注过程中遇到兼类词时,不但使用常规的状态转移概率信息,同时还结合特定兼类词的状态转移概率信息,计算兼类词上下文中的状态转移概率,对属于同一词类的不同词区别对待,从而提高了模型的精确性。由于兼类词的数目小且使用频率高,所以不会受到存储空间和数据稀疏问题的影响。 前期语料库准备工作中研究使用的双语语料库是汽车使用说明书方面的专业领域语料库,由作者负责组织和加工,花费5个人年、历时半年完成。该语料库由2.6万对句子对构成,约60万字/100万单词。经过反复检查获得较好的一致性,保证了语料库的翻译质量,也为双语句法树库提供了必要条件。 系统实现分为三大模块:资源管理模块(包括英语语料库管理、汉语语料库管理、英语词典管理、汉语词典管理),提供词典和语料库的查询和修改功能;对齐预处理模块(包括英语词形分析和词性标注、汉语分词和词性标注、英语句法分析、汉语句法分析、英汉串频统计、术语获取),生成候选句法树对集合;对齐模块(包括句子对齐、词汇对齐和短语对齐),生成对齐的句法树对。
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:H146.3;H314.3

【引证文献】
中国硕士学位论文全文数据库 前2条
1 陈亮;基于英汉平行语料库的机器翻译知识获取研究[D];北京交通大学;2012年
2 狄颖;中文多词表达抽取研究[D];南京师范大学;2013年
【参考文献】
中国期刊全文数据库 前1条
1 王斌,刘群,张祥;汉英双语库自动分段对齐研究[J];软件学报;2000年11期
【共引文献】
中国期刊全文数据库 前10条
1 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
2 彭莉芬;陈俊生;胡学钢;;基于粗糙集决策树算法的研究[J];安庆师范学院学报(自然科学版);2012年01期
3 吕学强,迟呈英;英文光学字符识别的后处理[J];鞍山钢铁学院学报;2002年03期
4 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
5 孙雪;李昆仑;胡夕坤;赵瑞;;基于半监督K-means的K值全局寻优算法[J];北京交通大学学报;2009年06期
6 赵勇;刘凯;;数字挖掘方法在遥感分类中的应用研究[J];北京测绘;2009年03期
7 沈奕,滑峰,刘椿年;基于GDT的对FOIL系统的改进[J];北京工业大学学报;2005年02期
8 朱青;刘宇辉;;一种面向领域的组件质量度量算法[J];北京工业大学学报;2007年01期
9 陈阳舟;黄旭;代桂平;;基于新的状态划分的多机器人围捕策略[J];北京工业大学学报;2010年08期
10 张瑞华;周延泉;王枞;李蕾;;移动终端离线浏览系统的新闻推荐服务研究[J];北京邮电大学学报;2006年06期
中国重要会议论文全文数据库 前10条
1 潘治文;李怡平;;一个基于语料库的葡中翻译系统[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
2 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
3 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
4 马玉莲;王宇冬;王鑫;;基于解释的分类算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 杜琳;石慧;刘晓平;;一种基于Q学习的任务调度算法的改进研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
6 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 王惠;;汉英机器翻译中基于大型语义词典的汉语词义消歧[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
8 刘晓月;杨沐昀;赵铁军;;迭代策略和词典相结合的机器翻译词典获取[A];第一届学生计算语言学研讨会论文集[C];2002年
9 李维刚;刘挺;王震;李生;;双语语料库段落重组对齐方法研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
2 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
3 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
4 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
5 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年
6 聂黎;基于基因表达式编程的车间动态调度方法研究[D];华中科技大学;2011年
7 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
8 黄静华;支持向量机算法研究及在气象数据挖掘中的应用[D];中国矿业大学(北京);2011年
9 陈俊;笑脸表情分类识别的研究[D];华南理工大学;2011年
10 刘宏兵;多目标粒度支持向量机及其应用研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
3 杨勇;基于SOA的浙江永康某小家电企业应用系统集成平台开发与应用[D];浙江理工大学;2010年
4 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年
5 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
6 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
7 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
8 张瑶;英汉机器翻译中的英语动词汉译研究[D];大连理工大学;2010年
9 安波;基于蛋白质关系网络的蛋白质络合物抽取研究[D];大连理工大学;2010年
10 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 于海江;;平行语料库与双语词典编纂[J];辞书研究;2006年01期
2 刘群;;机器翻译研究新进展[J];当代语言学;2009年02期
3 恽佳丽;何军;黄厚宽;;基于语料库的多词单位抽取算法[J];北京交通大学学报;2009年05期
4 任志敏;蔡东风;尹宝生;;一种高效的基于启发式规则和词典相结合的双语词对齐方法[J];沈阳航空工业学院学报;2010年05期
5 李德俊;;英汉平行语料库在双语词典编纂中的作用[J];解放军外国语学院学报;2006年03期
6 吕雅娟,赵铁军,李生;单语句法分析指导的双语结构对齐[J];计算机研究与发展;2003年07期
7 张春祥;李生;赵铁军;;基于中心语块扩展的短语对齐[J];计算机研究与发展;2006年09期
8 郭永辉,吴保民,王炳锡;一个基于GLR算法的英汉机器翻译浅层句法分析器[J];计算机工程与应用;2004年34期
9 肖健;徐建;徐晓兰;袁琦;;英中可比语料库中多词表达自动提取与对齐[J];计算机工程与应用;2010年31期
10 戴新宇;尹存燕;陈家骏;郑国梁;;机器翻译研究现状与展望[J];计算机科学;2004年11期
中国重要会议论文全文数据库 前1条
1 刘荣;王丽娟;张志平;刘健文;胡竟伟;;面向特定领域的多字词表达式的提取[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前2条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前2条
1 缪苗;VNC结构多词表达的抽取与分类[D];北京邮电大学;2011年
2 胡玉溪;基于双语语料的汉语多词表达抽取[D];北京邮电大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 刘苑;;试谈兼类词在不同语境下有可能带来的病句[J];黑龙江科技信息;2008年30期
2 田瑜娥;;殷墟甲骨刻辞兼类词分析[J];青年文学家;2009年21期
3 曲建华;;关于汉语动量词的借用与兼类问题的一点思考[J];语文学刊;2011年13期
4 陈镜鹏;;谈谈古汉语的兼类词“使”[J];语文教学与研究;1979年02期
5 陆福庆;;试论兼类词的义项建立原则[J];辞书研究;1987年01期
6 张存锷;从兼类词“衣”说“活用”与“兼类”[J];苏州大学学报(哲学社会科学版);1988年02期
7 尚平;“介词+着”现象考察[J];语言文字应用;2005年S1期
8 麻彩霞;;再论现代汉语“形+宾”现象[J];内蒙古师范大学学报(哲学社会科学版);2007年S1期
9 马宏基;;对外汉语教材中兼类词的标注问题[J];科学决策;2008年10期
10 李瑾;;汉语兼类词浅析[J];天府新论;2009年S1期
中国重要会议论文全文数据库 前10条
1 陈桂成;;说“像”及“似的、一样、一般”[A];福建省辞书学会2003年会论文集[C];2003年
2 王洁;荀恩东;宋柔;;兼类词排歧的一种方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 张亚旭;刘友谊;舒华;王黎;;汉语句子中双音节兼类词句法分析历程初探[A];第九届全国心理学学术会议文摘选集[C];2001年
4 温锁林;;汉语词性自动标注软件兼类词鉴别规则库的设计[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
5 俞士汶;段慧明;朱学锋;;语言工程中同形及兼类词语的处理策略[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 姜自霞;陈晓;李玉梅;靳光瑾;黄昌宁;;试论区别词的词性鉴别能力[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 郭慧志;谢学敏;张普;;抽象名词和组织类名词的限定作用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 俞士汶;段慧明;朱学锋;;词语兼类暨动词向名词漂移现象的计量分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 方向红;宋春阳;;介连兼类词“以”的句法语义区别特征及消歧策略[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 郭慧志;刘华;谢学敏;张普;;《人民日报》标注语料的初步统计分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前4条
1 西南大学文学院 肖梅旎;从“沛公军霸上”说起[N];学知报;2011年
2 河南平顶山市二中 李晓红;中古汉语副词“分别”的虚化[N];学知报;2010年
3 周立军 李冲;“由于”兼属介词和连词[N];语言文字周报;2010年
4 驻马店高级中学 李继新;文言文断句技巧解析[N];驻马店日报;2011年
中国博士学位论文全文数据库 前10条
1 夏全胜;汉语名词、动词和动名兼类词语义加工的ERP研究[D];南开大学;2012年
2 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
3 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
4 王仁强;认知视角的汉英词典词类标注实证研究[D];广东外语外贸大学;2006年
5 方向红;基于内涵逻辑的现代汉语连接词及关联句式语义研究[D];上海师范大学;2004年
6 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
7 郭建芳;汉英副词对比研究[D];华中师范大学;2013年
8 淑琴;蒙古文同形词知识库的构建[D];内蒙古大学;2010年
9 姚小鹏;汉语副词连接功能研究[D];上海师范大学;2011年
10 康军帅;当代汉语新词族研究[D];中央民族大学;2012年
中国硕士学位论文全文数据库 前10条
1 杨洋;《现代汉语词典》(第5版)形副兼类词研究[D];河北师范大学;2010年
2 杜朝科;《现代汉语词典》(第5版)兼类词研究[D];河北大学;2009年
3 刘颖颖;对外汉语教学视角下的动介兼类词研究[D];河北师范大学;2013年
4 申兰秀;汉语双音节兼类词中的汉韩同形词比较研究[D];青岛大学;2013年
5 于卓琳;现代汉语形副兼类词探究[D];吉林大学;2013年
6 陈蓓;现代汉语兼类词定量分析及认知解释[D];华中师范大学;2010年
7 裴奇;论现代汉语双音节动名兼类词的形成[D];河北大学;2009年
8 贺蒙;《现代汉语词典》(第6版)兼类词例证问题研究[D];四川外国语大学;2014年
9 许红花;HSK甲级词中的兼类词研究[D];延边大学;2004年
10 李萨日娜;《全日制民族中小学汉语课程标准(试行)》词的兼类问题考察[D];内蒙古师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026