蒙古文信息检索模型的研究
【摘要】:
目前,Web已经成为人类知识和文明的全球存储库,这个存储库使得人类的信息在一个巨大的范围内实现共享。由于语言的独特性,现有的信息检索技术仍然缺乏对少数民族语言的研究,这严重阻碍了少数民族文化的传承和发展。蒙古文是世界上很有影响力的语言文字,因此蒙古文信息检索的研究具有非常重要的意义。
为了搭建一个具有较高查全率及查准率的蒙古文信息检索平台。我们从蒙古文的构词和语法等方面特点进行分析,设计了蒙古文索引项(Term)的处理方案,包括蒙古文Term的区分及Stemming规则的确定;分别采用TF、DF及EC三种方法确定了蒙古文停用词表;通过对主流信息检索模型的分析比较,找到比较高效的蒙古文信息检索模型,并对模型的平滑算法、Query结构化、蒙古文停用词表及Stemming规则等方面对蒙古文信息检索效果的影响进行了实验。
课题组收集了27345篇蒙古文语料,建立了信息检索测试,包括:集语料库、11个Topic及相关性文档。运用Indri搭建了基于语言模型与推理网络模型相结合的混合模型的实验平台。实验结果表明蒙古文停用词表在有效减少索引大小的同时,提高了检索的查准率,EC停用词表的效果最佳;蒙古文Stemming规则能大幅度减少Term个数,并有效提高检索的查全率;结构化语言模型比其它模型更适应蒙古文信息检索;确定了平滑参数,实验表明三种平滑算法均适合蒙古文信息检索,Jelinek-Mercer平滑算法的效果略优于其它平滑算法。
|
|
|
|
1 |
丁华福,李毅,尚福华;机器翻译质量自动评价的实践[J];黑龙江工程学院学报;2002年03期 |
2 |
曲卫民,张俊林,孙乐,孙玉芳;基于记忆的自适应汉语语言模型的研究[J];中文信息学报;2003年05期 |
3 |
黎志升;王煦法;;基于Language Model的地理信息检索模型(英文)[J];中国科学技术大学学报;2010年02期 |
4 |
张建平;语音识别与理解的语言统计模型和搜索算法[J];电子商务;1999年09期 |
5 |
黄顺珍,方棣棠;利用语言模型实现音字转换的高效解码算法[J];深圳大学学报(理工版);2000年04期 |
6 |
申广忠;;蒙古语语音识别系统语言模型的设计[J];微计算机信息;2007年12期 |
7 |
侯宏旭;刘群;刘志文;张国强;;Skip-N蒙古文统计语言模型[J];内蒙古大学学报(自然科学版);2008年02期 |
8 |
刘加,潘胜昔,江金涛,胡凯军,王作英;用 TMS320C31 实时实现电话语音识别系统[J];清华大学学报(自然科学版);1998年09期 |
9 |
刘建成;蒋新华;吴今培;;应用改进型微粒群算法优化语言模型[J];小型微型计算机系统;2006年12期 |
10 |
韩中元;李生;齐浩亮;杨沐昀;;面向信息检索的近邻语言模型[J];中文信息学报;2011年01期 |
11 |
吴友政;赵军;徐波;;基于主题语言模型的句子检索算法[J];计算机研究与发展;2007年02期 |
12 |
金翔;;改进型微粒群算法语言模型的研究[J];软件导刊;2007年13期 |
13 |
吴军,王作英;汉语信息熵和语言模型的复杂度[J];电子学报;1996年10期 |
14 |
吴根清,郑方,金凌,吴文虎;一种在线递增式语言模型自适应方法[J];中文信息学报;2002年01期 |
15 |
;中国信息时代大突破——中文信息学会召开“中文之星汉语语言模型”鉴定会[J];互联网周刊;1999年41期 |
16 |
田野,李涓子,王作英,陆大金;电话语音识别系统[J];计算机工程与应用;2001年13期 |
17 |
沈兆勇;顾明亮;;基于符号化和语言模型方法的汉语方言自动辨识[J];徐州师范大学学报(自然科学版);2006年02期 |
18 |
张刚;郭岩;张凯;;分布式信息检索的集合选择研究[J];计算机工程;2007年02期 |
19 |
王韦华;徐波;;汉语语言模型的规模对统计机器翻译系统的影响[J];微计算机信息;2010年27期 |
20 |
许伟,苑春法,黄昌宁;基于语料库的语言建模[J];清华大学学报(自然科学版);1997年03期 |
|