收藏本站
收藏 | 论文排版

基于知识自动获取的无指导译文消歧方法研究

刘鹏远  
【摘要】: 这是个互联网的世界,使用高效的搜索引擎在互联网获取信息已经成为当代人们获取信息的最重要手段。在日益国际化的信息中,不同种语言之间的理解与处理一直存在着难以逾越的鸿沟,这就形成了人们对机器翻译、跨语言信息检索与处理的迫切需求。目前对此研究仍有诸多难题亟需解决,其主要之一就是,如何为源语言多义词选择语义正确对应的目标语译文词汇的问题,称之为译文消歧。译文消歧及与之相似的在单语范畴内的词义消歧一直是自然语言处理领域基础研究课题,它也是自然语言处理技术的重点和难点之一。 针对译文消歧及词义消歧的现状,通过对各类无指导消歧方法的比较分析,本文认为,目前无指导译文消歧的关键问题是消歧知识的自动获取与利用、克服数据稀疏及双语语义词典建设。因此,本文没有在机器学习算法、消歧特征选择等问题上做过多的研究与探讨,而是充分关注与挖掘无指导译文消歧方法中最核心的内容——知识获取,利用这些消歧知识来完成无指导译文消歧任务,同时克服数据稀疏问题。由此思想出发,本文提出了一系列逐步递进的无指导译文消歧知识获取以及消歧的创新方法,这些创新方法均利用了国际标准语义评测语料进行评测与对比分析,并均超过了以往可比较的最好无指导系统。最后,本文还进行了另一个关键问题的研究,即双语语义词典的自动构建。 本文具体研究内容包括以下几个方面: 1.自动获取带标记目标语语料,并直接形成译文消歧模型,提出利用该模型进行译文消歧的方法。在此基础上,提出了等价伪译词概念以及等价伪译词的构造方法,并以此实现无指导的译文消歧。最后在国际语义评测数据集Senseval-2 ELS上进行了实验与比较; 2.通过对双语语料库间接关联的观察,提出利用双语词汇间接关联度的完全无指导译文消歧方法。在计算间接关联度的过程中充分利用了Web资源,设计了Web的词汇间接关联度(Web_IA)的计算方法,在消歧过程中利用了三种不同的决策方法进行决策。随后,针对基于间接关联方法的不足,本文将整个Web视为语义词典,直接利用Web进行双语词汇语义相关度(WBR)的定义分析以及计算。经过对WBR方法在一个经改造处理的标准语义相关度测试集上的比较实验,证明该方法可行后,设计了基于WBR的完全无指导译文消歧方法,并在同一个国际标准语义评测数据集Semeval2007上的task5与基于Web_IA方法做了详细的对比实验; 3.通过对歧义词同义词集合内词汇语句序列的观察,提出了一种基于Ngram语言模型以及Web挖掘的无指导译文消歧方法。该方法认为歧义词不同词义所对应的N-gram语言模型模式不同,且利用的是语言模型知识而非语义知识。随后在同一个标准集上的对比评测表明,该方法取得了极为优异的性能。性能超过了该任务可比较最好无指导系统TorMD12.8%(Pmar值),最后,还进行了基于语言模型的方法与基于语义模型的方法的详细比较及性能上限的讨论; 4.研究了利用WordNet、HowNet以及大规模双语平行语料库自动生成面向译文消歧的的双语词典的方法。该方法充分利用大规模平行语料库内丰富的词汇对齐知识以及各项统计信息,利用WordNet及HowNet语义资源的相似度计算,形成了一部同时带有双语语义信息及语料库统计信息的词典。 综上所述,本文基本上给出了面向知识自动获取的无指导译文消歧的一整套解决方案,特别是其中基于Web的各种方法,为自然语言处理中的难题之一——译文/词义消歧,在基于Web搜索的研究思路上进行了初步探索。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘鹏远;赵铁军;;基于双语词汇Web间接关联的无指导译文消歧[J];软件学报;2010年04期
2 刘鹏远;赵铁军;;利用语义词典Web挖掘语言模型的无指导译文消歧[J];软件学报;2009年05期
3 刘鹏远;赵铁军;;基于挖掘Web双语词汇关联度的无指导译文消歧[J];高技术通讯;2010年04期
4 刘长娥;王世镇;刘加;夏善红;;语种确认中基于段长的语言模型修正方法[J];计算机应用研究;2006年07期
5 杨攀;李淼;张建;;基于短语统计翻译的汉维机器翻译系统[J];计算机应用;2009年07期
6 刘磊;曹存根;王海涛;陈威;;一种基于“是一个”模式的下位概念获取方法[J];计算机科学;2006年09期
7 刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期
8 丁华福,李毅,尚福华;机器翻译质量自动评价的实践[J];黑龙江工程学院学报;2002年03期
9 曲卫民,张俊林,孙乐,孙玉芳;基于记忆的自适应汉语语言模型的研究[J];中文信息学报;2003年05期
10 黎志升;王煦法;;基于Language Model的地理信息检索模型(英文)[J];中国科学技术大学学报;2010年02期
11 张建平;语音识别与理解的语言统计模型和搜索算法[J];电子商务;1999年09期
12 黄顺珍,方棣棠;利用语言模型实现音字转换的高效解码算法[J];深圳大学学报(理工版);2000年04期
13 申广忠;;蒙古语语音识别系统语言模型的设计[J];微计算机信息;2007年12期
14 侯宏旭;刘群;刘志文;张国强;;Skip-N蒙古文统计语言模型[J];内蒙古大学学报(自然科学版);2008年02期
15 杨忠祥;;自然语言的学习与知识获取问题[J];计算机研究与发展;1989年01期
16 王宗军;一种增强型智能决策支持系统的结构设计[J];计算机工程与设计;1994年04期
17 王国胤,施鸿宝,王栩;用前向神经网络获取特定结构的规则知识[J];西安交通大学学报;1996年01期
18 陆志峰,赵杰雄;知识获取系统TPKA的研究[J];暨南大学学报(自然科学与医学版);1996年03期
19 王继成;一个基于符号神经网络的知识获取系统[J];电子学报;1998年08期
20 刘加,潘胜昔,江金涛,胡凯军,王作英;用 TMS320C31 实时实现电话语音识别系统[J];清华大学学报(自然科学版);1998年09期
中国重要会议论文全文数据库 前10条
1 许春义;魏艳红;刘爱国;;新型焊接工艺设计专家系统[A];第十次全国焊接会议论文集(第2册)[C];2001年
2 王重鸣;陆兴海;王世潮;王叶毅;;决策知识结构获取与表征的多方法分析[A];全国第七届心理学学术会议文摘选集[C];1993年
3 蒋文科;杨云森;许文华;邝朴生;;基于模糊神经网络的知识获取系统[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(下册)[C];1995年
4 王志海;胡学钢;胡可云;王漫;蔡智明;张奠成;;一种面向知识获取的数据库逆向工程方法[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
5 马建军;陈文伟;;IDSS中知识获取的一种新方法[A];1996中国控制与决策学术年会论文集[C];1996年
6 翟忠平;王坚;凌卫青;;企业模型诊断系统(IEM-D)的规则知识获取[A];先进制造技术论坛暨第二届制造业自动化与信息化技术交流会论文集[C];2003年
7 周强;陈祖舜;梅立军;;情境描述的构建方法研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 张辉;钱宗才;屈景辉;刘敬华;;基于粗糙集理论的知识获取研究及应用[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
9 朱宏辉;陈定方;;知识获取与知识进化模型[A];2007年中国智能自动化会议论文集[C];2007年
10 王秀芳;齐玮;慕晓冬;;数据挖掘在故障诊断专家系统知识获取中的应用[A];第十九届中国(天津)'2005IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 刘鹏远;基于知识自动获取的无指导译文消歧方法研究[D];哈尔滨工业大学;2008年
2 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
3 生佳根;基于本体的知识获取、管理和应用方法研究[D];南京航空航天大学;2012年
4 郝宇;基于Kolmogorov复杂性的知识获取方法研究[D];清华大学;2005年
5 李秀英;基于历史典籍双语平行语料库的术语对齐研究[D];大连理工大学;2010年
6 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
7 康向平;基于形式概念分析理论的知识获取模型研究[D];山西大学;2012年
8 郭永洪;基于本体的鱼病知识获取与诊断推理集成系统研究[D];中国农业大学;2004年
9 张方华;知识型企业的社会资本与技术创新绩效研究[D];浙江大学;2005年
10 杨春立;产品知识管理系统研究[D];大连理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 汤小娜;词义消歧在统计机器翻译中的应用研究[D];厦门大学;2007年
2 张润延;海量语言模型的研究及其在机器翻译中的应用[D];厦门大学;2009年
3 李新生;基于改进语言模型的相关反馈方法的检索系统设计[D];北京邮电大学;2011年
4 刘盈;大词表连续语音识别系统的研究与实现[D];清华大学;2005年
5 王海燕;基于中小企业产业网络的知识创新研究[D];广东外语外贸大学;2008年
6 马雪;基于本体的隐性知识管理系统研究[D];西北大学;2008年
7 韩冠宇;智能化机械传动装置CAD系统[D];北京工业大学;2001年
8 杨继宏;人工智能技术在远程作业系统中的应用研究[D];西南交通大学;2003年
9 黄国平;推理机与基于数据库知识获取“松耦合”的一个专家系统之设计和实现[D];暨南大学;2002年
10 李敦峰;可视化集成专家系统开发工具的设计与实现[D];昆明理工大学;2004年
中国重要报纸全文数据库 前10条
1 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
2 清华大学 刘加;识别语音的几种依据[N];计算机世界;2006年
3 记者  章迪思;区域创新能力 上海重回榜首[N];解放日报;2006年
4 记者  冯娟;创新:冠军有“短腿”[N];上海金融报;2006年
5 王春 程蓉 龚黎明;上海综合创新能力缘何全国领先[N];科技日报;2006年
6 记者 任荃;区域创新 上海领跑[N];文汇报;2006年
7 瞿剑;“网络版权难解”困扰读书人[N];科技日报;2008年
8 清华大学 刘加;语音识别应用促进技术发展[N];计算机世界;2006年
9 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
10 郝亭;软件是怎样“炼”成的[N];工人日报;2000年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978