词搭配抽取及在信息检索中的应用研究
【摘要】:
搭配描述的是词与词之间组合在一起表达某种特殊含义的词汇现象,在词和短语之间架起了一个桥梁,是语言信息处理链条上重要的一环。随着统计机器学习和自然语言处理技术的发展,基于大规模语料库知识的自动获取成为趋势。建立高质量的单语和双语搭配词汇知识资源不仅对语言本体研究有着重要的理论意义;在自然语言处理应用领域,如机器翻译、信息检索及跨语言信息检索等也有着广泛的应用前景。
信息抽取是从文档中自动获取信息的一种重要手段,搭配抽取涉及的是单词之间的关系抽取,是信息抽取的一项子任务。本文借鉴信息抽取中常用算法和统计机器学习模型,通过多种统计量融合和多分类器融合的方法进行单词之间的搭配抽取。并将获取的单语和双语搭配应用于信息检索中的查询扩展和查询翻译,提高最终检索性能。
具体来讲,本文主要从以下几方面做了研究:
1.提出基于多统计量融合与多分类器融合的搭配抽取方法。目前的方法都是基于单一词汇关联方法的,没有考虑每一种方法的优缺点和适用范围,本论文提出一种基于线性回归模型的搭配抽取方法,融合了五种经典统计关联方法,包括互信息、共现频率、t检验、χ2检验、对数似然比检验,充分融合实现优势互补。数据来自Web反馈信息,根据候选搭配及构成词在谷歌出现的页面数模拟在语料库出现的次数。同时针对多统计量融合对于某些类型搭配的缺陷,提出多分类器融合的策略。本文主要研究异态学习模型,融合的模型来自三种不同的分类器算法,包括支持向量机、最大熵和条件随机域,融合策略使用投票法和线性加权方法。
2.提出一种英汉双语搭配翻译模型。英语和汉语两种语言之间,有这样的假设,相同的依存句法关系之间存在着强烈的相互对应关系。本论文借鉴统计机器翻译模型,提出一种双语搭配翻译模型。分别通过词对齐级的双语语料库和单语语料库训练统计翻译模型和目标语言模型,这种充分利用单语语料库和双语语料库的双语搭配翻译模型获得良好的性能。
3.研究了词搭配关系应用于信息检索的查询扩展中。传统的查询扩展方法都是通过单词之间共现关系或WordNet词典关系的,本论文选择同时具有语义和句法关系的搭配单词进行查询扩展。在传统语言模型框架下扩展查询模型,借鉴了局部上下文分析技术,同时结合了语言学知识和统计信息。在一定程度上可以弥补用户查询信息不足的缺陷,实验结果表明可以大大提高检索性能。
4.研究了双语搭配应用于跨语言信息检索的查询翻译中。基于双语字典的查询翻译策略目前是跨语言信息检索主流方法,但容易出现两类问题:一为译词选择歧义问题;二是词典覆盖率问题,再大的词典也不可能收录所有的翻译选项。针对第一类问题本文分别提出了双语衰减共现模型和双语搭配翻译模型两种统计方法。前者在传统的共现方法中引入距离位置因子,着重考虑单词间的关联程度随着间距而变化;后者将搭配关系融入到跨语言的查询翻译中。针对未登录词(OOV)翻译,本论文提出一种基于Web反馈数据的OOV识别方法。