多语种双语对齐平台的设计与实现
【摘要】:双语语料库在基于实例的机器翻译、翻译知识的获取、双语词典的建立、词义消歧等领域有着重要的应用价值。大规模双语语料库的建设是进行基于语料库研究的基础。当今互联网上存在着大量的双语互译文本,如何通过这些双语互译文本来建立大规模的双语语料库,对双语互译文本的加工成为至关重要的问题。
双语对齐技术是加工双语文本的核心。本文结合基于句子长度和基于词典的两种经典对齐算法思想,通过确定锚点句对对双语互译文本进行划分,实现了双语句子对齐,进一步提高了双语句子对齐的准确率。同时,本文还针对基于词典的双语对齐中双语词典单词词义的召回率不高的问题提出了一种新的词义模糊匹配方法,大大提高了词典中单词词义的召回率,为提供准确快速的双语句子对齐提供了条件。
根据上述思想,本文最终实现了一个准确、可靠、实用的双语句子对齐系统,为双语语料库的建设提供强有力的工具。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|