收藏本站
《大连理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于可比较语料库双语多词表达式对抽取

刘钦  
【摘要】:多词表达式对抽取和对齐是自然语言处理学科中的一个重要课题。多词表达式对作为基础资源,广泛地应用于机器翻译、信息抽取以及信息检索等领域。 本文挖掘的对象是可比较语料库,与通过人工翻译或者法规文件等而来的平行语料库相比,可比较语料库具有获取代价更低,资料来源更广泛等特点。通过对网络上的资源进行挖掘,构建成大规模、高质量的可比较语料库。但是可比较语料库源文档和目标文档之间的可挖掘信息和可利用资源更少,难度更大。因此,从可比较语料库中进一步挖掘出词级别的信息具有重要的研究意义和应用价值。 本文叙述了可比较语料库的相关背景知识,以及可比较语料的特点,多词表达式的定义;接下来介绍了本文可比较语料库的来源,构建方法,文档预处理的方法,通过聚类算法提高同主题文档的数目。介绍抽取中英多词表达式的一些基本方法,然后提出本文中抽取中英多词表达式的方法,并用实验证明抽取的多词表达式是有效的。结合参考文献中中英词条对齐算法提出了本文的中英多词表达式对齐算法,最后本文提出一种修正算法对中文多词表达式候选翻译结果进行重排序。 基于以上,构建一个从可比较语料库中自动化抽取多词表达式对的原型系统。在此系统上进行了三方面的实验(1)聚类实验;(2)中英多词表达式抽取实验;(3)中英多词表达式对齐实验。本文通过将聚类得到30对可比较的中英文文档。一共抽取出中文多词表达式对685条,英文多词表达式769条。其中对齐后Top-5,Top-10和Top-30分别达到了24.1%,37.9%,56.6%。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 朱培焱;夏栋梁;;汉英跨语言信息检索研究[J];计算机与现代化;2011年08期
2 王治德;;逻辑函数常见形式的转换[J];现代阅读(教育版);2011年14期
3 扎西加;高定国;;藏语语料库TEI标记规范探讨[J];中文信息学报;2011年04期
4 惠晓钟;;用Maya中的表达式功能生成随机自动动画[J];价值工程;2011年23期
5 靳丹宁;;基于语料库调查中动词句型错误探析[J];安徽电子信息职业技术学院学报;2011年04期
6 李俊文;陈玉莲;;计算机语言在UG参数化设计中的应用[J];机械工程师;2011年09期
7 田静涛;;活用表达式,文字批量巧替换[J];电脑爱好者;2010年24期
8 何财林;;三维正弦曲线数控铣床加工探究[J];中国西部科技;2011年23期
9 安见才让;;藏语句子相似度算法的研究[J];中文信息学报;2011年04期
10 杨雅婷;董兴华;王磊;吐尔洪·吾司曼;李晓;;电话信道维吾尔语口语语料库设计与研究[J];计算机工程与应用;2011年23期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
3 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
7 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
8 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
9 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
10 王仁华;胡郁;李威;凌震华;;基于决策树的汉语大语料库合成系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
2 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 吴秀生;寻找企业文化的中国表达式[N];人民政协报;2003年
5 记者张亚德;老教授黄建西发明“表达式制图语言”[N];保定日报;2009年
6 磁动力工作室 明浩;单片机C语言入门讲座(七)——运算符和表达式(2)[N];电子报;2005年
7 江西省抚州市教研室 陈小宁;你统计的成绩准确吗?[N];中国电脑教育报;2007年
8 江苏 黄忠良;3DMAX中表达式动画的控制方法[N];电脑报;2001年
9 曹明;NI发表视觉开发模块8.5具备新的边缘侦测表达式[N];电子资讯时报;2007年
10 张帆;五招提升你的AutoCAD计算能力[N];电脑报;2005年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
3 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
6 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
7 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
8 徐欣;基于语料库的英汉小说语篇中话语标记功能研究[D];山东大学;2011年
9 张建梅;基于语料库的现代蒙古语简单陈述句句型分析研究[D];内蒙古大学;2010年
10 王丽;基于语料库的中国学习者英语口语中语用标记语研究[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘钦;基于可比较语料库双语多词表达式对抽取[D];大连理工大学;2011年
2 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
3 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
4 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
5 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
6 李春青;[D];电子科技大学;2004年
7 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
8 刘鼎甲;连接成分的显化:基于语料库的中英文翻译文本对比[D];燕山大学;2010年
9 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
10 黄洁;基于语料库的商务英语词汇特点的研究[D];大连海事大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026