双语辅助翻译搜索引擎若干问题研究
【摘要】:
随着我国经济与对外交流的不断发展,翻译市场规模迅速扩大,利用计算机软件等翻译工具越来越受到用户的青睐,各类机器翻译的技术和方法层出不穷。机器翻译的方法主要分为两大类,分别是基于规则的方法和基于语料库的方法。基于规则的机器翻译最大的难题就是语言歧义的消解;基于语料库的方法是采取翻译记忆的模式,用户利用已有的原文和译文,建立起一个或多个语料库,在翻译过程中,系统自动搜索库中相同或相似的翻译资源,并给出参考译文。
本文提出的双语辅助翻译搜索引擎是一种新的辅助翻译的模式,它不同于以往的机器翻译,不依赖于计算机的自动翻译,而是由系统给出相关译文,在人的参与下,完成整个翻译过程,与机器自动翻译相比,质量更好,与人工翻译相比,效率更高。对于翻译用户来说,要提供给他们更准确、更匹配的相关译文,系统需要有大规模的语料储备,因此,本系统的核心是语料库的构建,本文主要采用了Web数据挖掘的方法,利用搜索引擎的相关技术,实现了大规模语料库的自动构建和持续积累。
在整个论文的研究过程中,主要做了以下工作:
(1)分析了信息技术在翻译领域的相关应用,了解了当前翻译技术的发展现状,在基于翻译记忆模式下的计算机辅助翻译的基础上,提出了以Web数据挖掘的方式构建语料库,并通过匹配输入关键字,向用户提供相关参考译文的辅助翻译方法。
(2)学习和研究搜索引擎技术,采用Web数据挖掘的一般流程,在互联网海量信息库中,收集具有中英双语信息的单页文本和双页对照文本,通过识别、净化和分析网页DOM结构,提取网页中大量存在的双语平行翻译语料,形成大规模的语料库。
(3)在形成语料库的基础上,通过Lucene索引工具,对语料建立索引并实现检索,然后为用户提供一个接口,返回输入信息的相关译文列表,由用户根据列表给出正确翻译。
(4)最后,在系统的集成上,将其分成采集模块、提取语料模块、索引模块和用户接口模块,给出了分布式解决方案。