收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于可比较语料库的中英文词表构建研究

徐华  
【摘要】:双语词表作为跨语言信息处理的基本纽带,是自然语言处理领域的重要资源,在统计机器翻译和跨语言信息检索等应用中发挥着重要的作用。本文在深入研究现有从可比较语料库构建双语词表方法的基础上,以中文和英文为例,提出了基于依存关系映射模型的双语词表构建方法,旨在提高其性能。研究内容主要包括: 1)实现了基于依存上下文模型的中英文词表构建系统。参考传统的依存上下文模型,从句子的依存树结构中抽取词语的前驱节点和后继节点词语作为其上下文来实现了本文的基准系统,并考察了窗口大小、关联强度衡量方法和相似度计算方法对双语词表构建性能的影响; 2)提出了基于依存关系映射模型的双语词表构建方法。针对依存上下文模型所存在的缺点,本文提出了基于依存关系映射的中英文词表构建方法,通过同时匹配依存树中的上下文词语、依存关系类型来实现双语词表的构建; 3)研究了依存关系映射的自动获取和优化方法。针对手工制定依存映射规则所存在的局限性,提出了依存映射规则的自动获取方法,并通过分离测试算法过滤依存映射规则,然后再利用感知器学习算法优化映射规则的权值,以期进一步提高双语词表构建的性能和适用性。 在中英文词表构建系统的实验表明,本文提出的基于依存映射模型的方法能显著提高中文-英文和英文-中文两个方向上的词表构建性能,同时,依存映射规则的自动获取和过滤方法能有效梳理出关键的映射规则,再经过感知器算法进行权值优化后,进一步提高了双语词表构建的性能,同时也增强了依存映射模型的适用性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王爽;熊德兰;王晓霞;;基于实例的古文机器翻译设计与实现[J];许昌学院学报;2009年05期
2 曹英;徐卫;;基于网页的语料库自动生成[J];电脑知识与技术;2010年23期
3 吴迪;浅谈开发《CONULEXID英汉语言资料库》的意义[J];科技与出版;1998年04期
4 何儒云,汤艳莉;智能化信息检索研究[J];图书馆;2003年03期
5 陆剑江;张霞;;基于Web语料库的知识发现设计与研究[J];计算机应用与软件;2006年07期
6 张亮;王树梅;黄河燕;张孝飞;;面向中文问答系统的问句句法分析[J];山东大学学报(理学版);2006年03期
7 邱悦;;跨语言信息检索研究[J];图书情报工作;2006年10期
8 郝天侠;;跨语言信息检索技术与应用研究[J];情报杂志;2007年12期
9 王清;殷业;;基于Globish的旅游用英汉翻译系统的研究[J];企业科技与发展;2008年12期
10 高璐;;藏语天气预报语音合成系统的初步研究[J];电脑与电信;2009年01期
11 翟东升;王立轻;;燃料电池英语语料库的建库及其应用研究[J];情报杂志;2010年05期
12 袁煜;;正则表达式在外语教学及研究中的应用[J];软件导刊;2011年01期
13 贾自艳,史忠植;基于概率统计技术和规则方法的新词发现[J];计算机工程;2004年20期
14 何婷婷;谢芳;;利用BP神经网络的中文词义消歧模型[J];华中师范大学学报(自然科学版);2005年04期
15 李雪涛;文茂平;杨鉴;;基于Web网页语料构建动态语言模型[J];信息技术;2006年08期
16 任成梅;李春英;;汉英跨语言信息检索探讨[J];图书馆理论与实践;2006年06期
17 黄万武;孙炳文;;数据驱动语言学习—教学模式的转变[J];武汉科技学院学报;2006年11期
18 姜涛;姚天顺;张俐;;基于实例的中文分词-词性标注方法的应用研究[J];小型微型计算机系统;2007年11期
19 付华军;陈吕芳;;试论数据驱动语言学习对教学模式的影响[J];科技经济市场;2007年12期
20 邹文杰;;SUSANNE语料库中语法规则的抽取[J];科技信息(科学教研);2008年10期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
3 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
7 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
8 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
9 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
10 王仁华;胡郁;李威;凌震华;;基于决策树的汉语大语料库合成系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
3 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
6 赵永青;基于语料库的英语多人冲突性话语研究[D];上海外国语大学;2012年
7 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
8 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
9 徐欣;基于语料库的英汉小说语篇中话语标记功能研究[D];山东大学;2011年
10 张建梅;基于语料库的现代蒙古语简单陈述句句型分析研究[D];内蒙古大学;2010年
中国硕士学位论文全文数据库 前10条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
2 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
3 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
4 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
5 李春青;[D];电子科技大学;2004年
6 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
7 刘鼎甲;连接成分的显化:基于语料库的中英文翻译文本对比[D];燕山大学;2010年
8 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
9 黄洁;基于语料库的商务英语词汇特点的研究[D];大连海事大学;2010年
10 李艳梅;基于语料库的中国英语学习者与本族语者阐发性话语标记语的对比分析[D];沈阳师范大学;2011年
中国重要报纸全文数据库 前10条
1 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
2 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
5 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
6 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
7 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
8 ;探索普通话自然连续语音之规律[N];光明日报;2001年
9 本报记者 陈友梅;让电脑说人话[N];中国计算机报;2001年
10 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978