基于知识自动获取的无指导译文消歧方法研究
【摘要】:
这是个互联网的世界,使用高效的搜索引擎在互联网获取信息已经成为当代人们获取信息的最重要手段。在日益国际化的信息中,不同种语言之间的理解与处理一直存在着难以逾越的鸿沟,这就形成了人们对机器翻译、跨语言信息检索与处理的迫切需求。目前对此研究仍有诸多难题亟需解决,其主要之一就是,如何为源语言多义词选择语义正确对应的目标语译文词汇的问题,称之为译文消歧。译文消歧及与之相似的在单语范畴内的词义消歧一直是自然语言处理领域基础研究课题,它也是自然语言处理技术的重点和难点之一。
针对译文消歧及词义消歧的现状,通过对各类无指导消歧方法的比较分析,本文认为,目前无指导译文消歧的关键问题是消歧知识的自动获取与利用、克服数据稀疏及双语语义词典建设。因此,本文没有在机器学习算法、消歧特征选择等问题上做过多的研究与探讨,而是充分关注与挖掘无指导译文消歧方法中最核心的内容——知识获取,利用这些消歧知识来完成无指导译文消歧任务,同时克服数据稀疏问题。由此思想出发,本文提出了一系列逐步递进的无指导译文消歧知识获取以及消歧的创新方法,这些创新方法均利用了国际标准语义评测语料进行评测与对比分析,并均超过了以往可比较的最好无指导系统。最后,本文还进行了另一个关键问题的研究,即双语语义词典的自动构建。
本文具体研究内容包括以下几个方面:
1.自动获取带标记目标语语料,并直接形成译文消歧模型,提出利用该模型进行译文消歧的方法。在此基础上,提出了等价伪译词概念以及等价伪译词的构造方法,并以此实现无指导的译文消歧。最后在国际语义评测数据集Senseval-2 ELS上进行了实验与比较;
2.通过对双语语料库间接关联的观察,提出利用双语词汇间接关联度的完全无指导译文消歧方法。在计算间接关联度的过程中充分利用了Web资源,设计了Web的词汇间接关联度(Web_IA)的计算方法,在消歧过程中利用了三种不同的决策方法进行决策。随后,针对基于间接关联方法的不足,本文将整个Web视为语义词典,直接利用Web进行双语词汇语义相关度(WBR)的定义分析以及计算。经过对WBR方法在一个经改造处理的标准语义相关度测试集上的比较实验,证明该方法可行后,设计了基于WBR的完全无指导译文消歧方法,并在同一个国际标准语义评测数据集Semeval2007上的task5与基于Web_IA方法做了详细的对比实验;
3.通过对歧义词同义词集合内词汇语句序列的观察,提出了一种基于Ngram语言模型以及Web挖掘的无指导译文消歧方法。该方法认为歧义词不同词义所对应的N-gram语言模型模式不同,且利用的是语言模型知识而非语义知识。随后在同一个标准集上的对比评测表明,该方法取得了极为优异的性能。性能超过了该任务可比较最好无指导系统TorMD12.8%(Pmar值),最后,还进行了基于语言模型的方法与基于语义模型的方法的详细比较及性能上限的讨论;
4.研究了利用WordNet、HowNet以及大规模双语平行语料库自动生成面向译文消歧的的双语词典的方法。该方法充分利用大规模平行语料库内丰富的词汇对齐知识以及各项统计信息,利用WordNet及HowNet语义资源的相似度计算,形成了一部同时带有双语语义信息及语料库统计信息的词典。
综上所述,本文基本上给出了面向知识自动获取的无指导译文消歧的一整套解决方案,特别是其中基于Web的各种方法,为自然语言处理中的难题之一——译文/词义消歧,在基于Web搜索的研究思路上进行了初步探索。
|
|
|
|
1 |
刘鹏远;赵铁军;;基于双语词汇Web间接关联的无指导译文消歧[J];软件学报;2010年04期 |
2 |
刘鹏远;赵铁军;;利用语义词典Web挖掘语言模型的无指导译文消歧[J];软件学报;2009年05期 |
3 |
刘鹏远;赵铁军;;基于挖掘Web双语词汇关联度的无指导译文消歧[J];高技术通讯;2010年04期 |
4 |
刘长娥;王世镇;刘加;夏善红;;语种确认中基于段长的语言模型修正方法[J];计算机应用研究;2006年07期 |
5 |
杨攀;李淼;张建;;基于短语统计翻译的汉维机器翻译系统[J];计算机应用;2009年07期 |
6 |
刘磊;曹存根;王海涛;陈威;;一种基于“是一个”模式的下位概念获取方法[J];计算机科学;2006年09期 |
7 |
刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期 |
8 |
丁华福,李毅,尚福华;机器翻译质量自动评价的实践[J];黑龙江工程学院学报;2002年03期 |
9 |
曲卫民,张俊林,孙乐,孙玉芳;基于记忆的自适应汉语语言模型的研究[J];中文信息学报;2003年05期 |
10 |
黎志升;王煦法;;基于Language Model的地理信息检索模型(英文)[J];中国科学技术大学学报;2010年02期 |
11 |
张建平;语音识别与理解的语言统计模型和搜索算法[J];电子商务;1999年09期 |
12 |
黄顺珍,方棣棠;利用语言模型实现音字转换的高效解码算法[J];深圳大学学报(理工版);2000年04期 |
13 |
申广忠;;蒙古语语音识别系统语言模型的设计[J];微计算机信息;2007年12期 |
14 |
侯宏旭;刘群;刘志文;张国强;;Skip-N蒙古文统计语言模型[J];内蒙古大学学报(自然科学版);2008年02期 |
15 |
杨忠祥;;自然语言的学习与知识获取问题[J];计算机研究与发展;1989年01期 |
16 |
王宗军;一种增强型智能决策支持系统的结构设计[J];计算机工程与设计;1994年04期 |
17 |
王国胤,施鸿宝,王栩;用前向神经网络获取特定结构的规则知识[J];西安交通大学学报;1996年01期 |
18 |
陆志峰,赵杰雄;知识获取系统TPKA的研究[J];暨南大学学报(自然科学与医学版);1996年03期 |
19 |
王继成;一个基于符号神经网络的知识获取系统[J];电子学报;1998年08期 |
20 |
刘加,潘胜昔,江金涛,胡凯军,王作英;用 TMS320C31 实时实现电话语音识别系统[J];清华大学学报(自然科学版);1998年09期 |
|