收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

蒙古文信息检索模型的研究

金威  
【摘要】: 目前,Web已经成为人类知识和文明的全球存储库,这个存储库使得人类的信息在一个巨大的范围内实现共享。由于语言的独特性,现有的信息检索技术仍然缺乏对少数民族语言的研究,这严重阻碍了少数民族文化的传承和发展。蒙古文是世界上很有影响力的语言文字,因此蒙古文信息检索的研究具有非常重要的意义。 为了搭建一个具有较高查全率及查准率的蒙古文信息检索平台。我们从蒙古文的构词和语法等方面特点进行分析,设计了蒙古文索引项(Term)的处理方案,包括蒙古文Term的区分及Stemming规则的确定;分别采用TF、DF及EC三种方法确定了蒙古文停用词表;通过对主流信息检索模型的分析比较,找到比较高效的蒙古文信息检索模型,并对模型的平滑算法、Query结构化、蒙古文停用词表及Stemming规则等方面对蒙古文信息检索效果的影响进行了实验。 课题组收集了27345篇蒙古文语料,建立了信息检索测试,包括:集语料库、11个Topic及相关性文档。运用Indri搭建了基于语言模型与推理网络模型相结合的混合模型的实验平台。实验结果表明蒙古文停用词表在有效减少索引大小的同时,提高了检索的查准率,EC停用词表的效果最佳;蒙古文Stemming规则能大幅度减少Term个数,并有效提高检索的查全率;结构化语言模型比其它模型更适应蒙古文信息检索;确定了平滑参数,实验表明三种平滑算法均适合蒙古文信息检索,Jelinek-Mercer平滑算法的效果略优于其它平滑算法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 丁华福,李毅,尚福华;机器翻译质量自动评价的实践[J];黑龙江工程学院学报;2002年03期
2 曲卫民,张俊林,孙乐,孙玉芳;基于记忆的自适应汉语语言模型的研究[J];中文信息学报;2003年05期
3 黎志升;王煦法;;基于Language Model的地理信息检索模型(英文)[J];中国科学技术大学学报;2010年02期
4 张建平;语音识别与理解的语言统计模型和搜索算法[J];电子商务;1999年09期
5 黄顺珍,方棣棠;利用语言模型实现音字转换的高效解码算法[J];深圳大学学报(理工版);2000年04期
6 申广忠;;蒙古语语音识别系统语言模型的设计[J];微计算机信息;2007年12期
7 侯宏旭;刘群;刘志文;张国强;;Skip-N蒙古文统计语言模型[J];内蒙古大学学报(自然科学版);2008年02期
8 刘加,潘胜昔,江金涛,胡凯军,王作英;用 TMS320C31 实时实现电话语音识别系统[J];清华大学学报(自然科学版);1998年09期
9 刘建成;蒋新华;吴今培;;应用改进型微粒群算法优化语言模型[J];小型微型计算机系统;2006年12期
10 韩中元;李生;齐浩亮;杨沐昀;;面向信息检索的近邻语言模型[J];中文信息学报;2011年01期
11 吴友政;赵军;徐波;;基于主题语言模型的句子检索算法[J];计算机研究与发展;2007年02期
12 金翔;;改进型微粒群算法语言模型的研究[J];软件导刊;2007年13期
13 吴军,王作英;汉语信息熵和语言模型的复杂度[J];电子学报;1996年10期
14 吴根清,郑方,金凌,吴文虎;一种在线递增式语言模型自适应方法[J];中文信息学报;2002年01期
15 ;中国信息时代大突破——中文信息学会召开“中文之星汉语语言模型”鉴定会[J];互联网周刊;1999年41期
16 田野,李涓子,王作英,陆大金;电话语音识别系统[J];计算机工程与应用;2001年13期
17 沈兆勇;顾明亮;;基于符号化和语言模型方法的汉语方言自动辨识[J];徐州师范大学学报(自然科学版);2006年02期
18 张刚;郭岩;张凯;;分布式信息检索的集合选择研究[J];计算机工程;2007年02期
19 王韦华;徐波;;汉语语言模型的规模对统计机器翻译系统的影响[J];微计算机信息;2010年27期
20 许伟,苑春法,黄昌宁;基于语料库的语言建模[J];清华大学学报(自然科学版);1997年03期
中国重要会议论文全文数据库 前10条
1 陈振标;徐波;;限定领域的语言模型[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
2 付晓寅;魏玮;徐波;;一种基于状态转移的N元语言模型快速查询方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 韩中元;李生;杨沐昀;齐浩亮;;面向信息检索的近邻语言模型[A];第六届全国信息检索学术会议论文集[C];2010年
4 奚宁;赵迎功;汤光超;李斌;罗春勇;戴新宇;陈家骏;;统计机器翻译中多种语言模型的融合[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 努尔艾力·喀迪尔;彭良瑞;;基于SRILM的阿拉伯和维吾尔文语言模型建立方法[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
7 苏韬;汪俊杰;孙甲松;王作英;;基于最大似然估计的语言模型自适应[A];第六届全国人机语音通讯学术会议论文集[C];2001年
8 张建平;庹凌云;孙宝海;汪俊杰;刘建;颜永红;;LVCSR系统中语言模型的参数选择与性能评测[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
9 任纪生;王作英;赵敏;;基于潜在语义信息的汉语语音识别方法[A];中文信息处理技术研讨会论文集[C];2004年
10 詹津明;牟晓隆;李树青;方棣棠;;一个大字表语音识别系统中的语言模型[A];第五届全国人机语音通讯学术会议论文集[C];1998年
中国博士学位论文全文数据库 前10条
1 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
2 肖镜辉;非时齐语言建模技术研究及实践[D];哈尔滨工业大学;2007年
3 刘鹏远;基于知识自动获取的无指导译文消歧方法研究[D];哈尔滨工业大学;2008年
4 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
5 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
6 王欢良;基于混淆网络和辅助信息的语音识别技术研究[D];哈尔滨工业大学;2007年
7 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
8 方淼;语义单元自动获取研究[D];大连理工大学;2008年
9 黎志升;地理信息检索若干技术研究[D];中国科学技术大学;2009年
10 郑铁然;基于音节网格的汉语语音文档检索方法研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 金威;蒙古文信息检索模型的研究[D];内蒙古大学;2009年
2 张润延;海量语言模型的研究及其在机器翻译中的应用[D];厦门大学;2009年
3 李新生;基于改进语言模型的相关反馈方法的检索系统设计[D];北京邮电大学;2011年
4 刘盈;大词表连续语音识别系统的研究与实现[D];清华大学;2005年
5 汤小娜;词义消歧在统计机器翻译中的应用研究[D];厦门大学;2007年
6 沈默;平板电脑上语言模型的开发与测试[D];清华大学;2005年
7 梁奇;语言模型自适应方法在嵌入式系统中应用的研究[D];清华大学;2006年
8 唐永明;基于关联词的复句语言模型[D];北京邮电大学;2009年
9 刘春泳;中文问答系统中信息检索模型的研究[D];重庆大学;2007年
10 康恺;定题信息检索关键技术研究[D];厦门大学;2007年
中国重要报纸全文数据库 前10条
1 清华大学 刘加;识别语音的几种依据[N];计算机世界;2006年
2 清华大学 刘加;语音识别应用促进技术发展[N];计算机世界;2006年
3 本报记者 于翔;咫尺天涯间 BI与搜索的融合之路[N];网络世界;2007年
4 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
5 郝亭;软件是怎样“炼”成的[N];工人日报;2000年
6 何中军米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
7 中科院计算技术研究所 吕雅娟付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
8 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
9 石天强;“凡客体”中的资本欲望[N];中国教育报;2010年
10 北京清华大学电子工程系副教授 刘加 教授 刘润生;让机器听懂我的话[N];科技日报;2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978