收藏本站
《中国科学院研究生院(软件研究所)》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语言模型的信息检索系统研究

张俊林  
【摘要】:基于语言模型的信息检索范型为信息检索领域开辟了一个很有前景同时也具有相当挑战性的方向。针对该方法现存的问题,本论文从理论探讨和实际系统开发两个不同的角度来对以下内容进行了研究: (1) 提出了触发语言模型检索方法。通过“相关比率算法”从训练语料得到词汇在一定上下文中的同现词汇,在此基础上提出了新的算法来计算查询条件的触发词汇集合来明确查询条件的主题,并将相关参数引入文档语言模型形成触发语言模型。 (2) 探讨了Kullback—Leibler语言模型框架中的相关反馈机制并提出了两种相关反馈技术:混合语言模型方法和词汇重要性分布方法。这两种查询反馈方法都以一种比较自然的方式将相关反馈技术集成到了语言模型检索框架中。实验结果表明这两种方法明显地提高了检索系统的性能,平均查准率分别比Kullback—Leibler模型提高了19.89%和24.07%。 (3) 提出了基于主题语言模型的信息检索系统。首先我们提出了“改进的两阶段K-Means聚类算法”来对文档集合进行聚类,通过引入Aspect Model结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。 (4) 设计并实现了文本检索领域软件框架AFFIRM系统。在这个框架的设计中大量地采用了面向对象领域的设计模式技术来支持IR系统中检索模型、索引方法、查询反馈等关键组成部分的设计复用。同时该框架灵活的体系结构能够方便地支持新的需求的设计开发。 国内有关语言模型检索方法的相关研究尚未见报道,本论文对这一领域进行了有益的探索并有效地解决了现存的一些问题,为语言模型检索方法的深入理论研究以及实际应用系统的开发提供了良好的基础。
【学位授予单位】:中国科学院研究生院(软件研究所)
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前4条
1 朱君;曲超;汤庸;;利用单词超团的二分图文本聚类算法[J];电子科技大学学报;2008年03期
2 郭少友;;自动分类中的文档表示及其改善方法研究[J];信息技术;2008年08期
3 王才伟;王锁花;;网络文本挖掘相关技术的发展现状和问题[J];江苏教育学院学报(自然科学);2013年03期
4 刘伟成;孙吉红;;跨语言信息检索模型应用研究[J];情报杂志;2007年10期
中国博士学位论文全文数据库 前3条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
3 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年
3 李新生;基于改进语言模型的相关反馈方法的检索系统设计[D];北京邮电大学;2011年
4 岳俊英;蒙古文信息检索系统中检索单元选取方法的研究[D];内蒙古大学;2011年
5 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
6 韩开旭;基于查询扩展的油田网络舆情监控系统[D];东北石油大学;2011年
7 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
8 孔世明;基于自然语言识别的智能检索研究与实现[D];重庆大学;2006年
9 黄名选;基于完全加权关联规则挖掘的查询扩展研究[D];广西师范大学;2007年
10 杨卫忠;个性化文献检索技术研究[D];西安科技大学;2007年
【参考文献】
中国期刊全文数据库 前1条
1 冯项云;检索系统中的相关反馈机制[J];情报理论与实践;1998年06期
【共引文献】
中国期刊全文数据库 前6条
1 王渊;;面向用户的搜索引擎检索结果评价[J];河南图书馆学刊;2007年04期
2 石艳霞;信息检索中“相关性”与“相关反馈”研究概述[J];晋图学刊;2002年02期
3 王炼;从用户角度评价网络搜索引擎[J];情报科学;2005年03期
4 曾佳;核科技文献检索的几点体会[J];情报理论与实践;1999年06期
5 李广建;个性化网络信息检索系统研究与实现[J];图书情报工作;2004年11期
6 王福生;;搜索引擎中的数字图书馆[J];现代情报;2007年03期
中国博士学位论文全文数据库 前1条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
中国硕士学位论文全文数据库 前6条
1 李新生;基于改进语言模型的相关反馈方法的检索系统设计[D];北京邮电大学;2011年
2 胡阳;中文搜索引擎用户检索习惯问卷调查分析[D];河北大学;2011年
3 李清;一种基于动态知识库的搜索引擎的技术研究[D];暨南大学;2002年
4 樊康新;基于服务器端的个性化元搜索引擎的研究与设计[D];苏州大学;2005年
5 吴金元;网络化产品设计信息过滤中若干关键技术研究[D];武汉理工大学;2006年
6 黄子越;基于聚类的XML文档检索反馈机制研究[D];江西财经大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
2 张光卫;康建初;李鹤松;李德毅;;基于云模型的全局最优化算法[J];北京航空航天大学学报;2007年04期
3 李卫东;宋威;李欣;杨炳儒;;一种多标准决策树剪枝方法及其在入侵检测中的应用[J];北京科技大学学报;2007年04期
4 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
5 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
6 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
7 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
8 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
9 王娟;;网络舆情监控分析系统构建[J];长春理工大学学报(高教版);2007年04期
10 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
中国重要会议论文全文数据库 前5条
1 张建强;;基于语料库的现代汉语疑问句使用情况调查[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
2 魏志成;;汉语句型系统的解构与重构[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
3 汪华峰;陈峪;;汉语自然语言理解中词切分中新词问题初探[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
4 丁江伟;刘挺;卢志茂;李生;;隐马尔可夫模型和贝叶斯模型词义消歧对比研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 金千里;赵军;徐波;;弱指导的统计隐含语义分析及其在跨语言信息检索中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前1条
1 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 张毅波;中文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
5 张蕾;概念结构及其应用[D];西北工业大学;2001年
6 王晓东;基于Ontology知识库系统建模与应用研究[D];华东师范大学;2003年
7 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
8 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
9 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
10 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
中国硕士学位论文全文数据库 前10条
1 明玉;基于词典、规则与统计的蒙古文词切分系统的研究[D];内蒙古大学;2011年
2 辛强;基于共现距离与查询扩展的蒙古文信息检索系统[D];内蒙古大学;2011年
3 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
4 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
5 张绍华;基于实例的Web信息抽取[D];河北大学;2001年
6 赵志荣;个性化搜索引擎的研究、设计与实现[D];四川大学;2002年
7 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
8 陈波;中文统计自然语言处理隐马模型的研究[D];重庆大学;2003年
9 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
10 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 肖海鹏;邓晓衡;;基于Web挖掘的关键词建议模型研究[J];电脑知识与技术;2012年13期
2 叶飞;李欣冉;;基于K-Means算法的混合聚类算法研究[J];阜阳师范学院学报(自然科学版);2012年02期
3 刘茂福;周斌;胡慧君;陈建勋;;问答系统中基于维基百科的问题扩展技术研究[J];工业控制计算机;2012年09期
4 陈锐;张蕾;胡艳华;;基于语义的信息检索模型[J];计算机工程与应用;2009年26期
5 刘德山;;一种改进的基于后缀树模型搜索结果聚类算法[J];计算机科学;2011年11期
6 曲超;潘晓衡;朱君;蔡少仲;胡天明;;基于单词超团的文本聚类方法[J];计算机工程;2011年11期
7 沈磊;郑超雷;叶勇武;诸葛斌;;智能建站CMS系统的研究[J];计算机时代;2010年07期
8 朱培焱;夏栋梁;;汉英跨语言信息检索研究[J];计算机与现代化;2011年08期
9 周剑烽;;基于本体的局部文档分析查询扩展方法研究[J];科技传播;2011年03期
10 宋宝贵;;基于过程特性的网络信息重复检索策略研究[J];计算机应用与软件;2013年05期
中国重要会议论文全文数据库 前1条
1 薛广普;;面向个性化的移动搜索技术研究[A];中国新闻技术工作者联合会2013年学术年会、五届五次理事会暨第六届“王选新闻科学技术奖”和优秀论文奖颁奖大会论文集(报业篇)[C];2013年
中国博士学位论文全文数据库 前9条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 吴胜;网站信息分类体系优化方法及其应用[D];南京林业大学;2009年
3 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
4 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年
5 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
6 翟延冬;基于WordNet的短文本语义网挖掘算法研究[D];吉林大学;2012年
7 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
8 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
9 刘晨;高伸缩性聚类分析方法研究[D];哈尔滨工程大学;2013年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
3 宁健;面向生物医学领域的跨语言信息检索[D];大连理工大学;2010年
4 杨朝玉;基于知网的受限域问答系统原型的设计与实现[D];华南理工大学;2010年
5 杨海南;基于语义词典和局部分析的查询扩展研究[D];武汉理工大学;2010年
6 邹圣容;基于方证的症状与证素关系的量化分析研究[D];成都中医药大学;2010年
7 陶启立;基于语义的科技文档信息资源检索系统的设计与实现[D];西北大学;2011年
8 宗宝琴;基于自然语言理解的智能检索接口技术的研究及其应用[D];河北科技大学;2011年
9 段永铎;农信通信息系统的设计与实现[D];吉林大学;2011年
10 黄华;基于搜索引擎和语义的Web服务发现研究[D];武汉理工大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期
2 丁华福,李毅,尚福华;机器翻译质量自动评价的实践[J];黑龙江工程学院学报;2002年03期
3 曲卫民,张俊林,孙乐,孙玉芳;基于记忆的自适应汉语语言模型的研究[J];中文信息学报;2003年05期
4 黎志升;王煦法;;基于Language Model的地理信息检索模型(英文)[J];中国科学技术大学学报;2010年02期
5 张建平;语音识别与理解的语言统计模型和搜索算法[J];电子商务;1999年09期
6 黄顺珍,方棣棠;利用语言模型实现音字转换的高效解码算法[J];深圳大学学报(理工版);2000年04期
7 申广忠;;蒙古语语音识别系统语言模型的设计[J];微计算机信息;2007年12期
8 侯宏旭;刘群;刘志文;张国强;;Skip-N蒙古文统计语言模型[J];内蒙古大学学报(自然科学版);2008年02期
9 刘加,潘胜昔,江金涛,胡凯军,王作英;用 TMS320C31 实时实现电话语音识别系统[J];清华大学学报(自然科学版);1998年09期
10 刘建成;蒋新华;吴今培;;应用改进型微粒群算法优化语言模型[J];小型微型计算机系统;2006年12期
中国重要会议论文全文数据库 前10条
1 陈振标;徐波;;限定领域的语言模型[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
2 付晓寅;魏玮;徐波;;一种基于状态转移的N元语言模型快速查询方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 韩中元;李生;杨沐昀;齐浩亮;;面向信息检索的近邻语言模型[A];第六届全国信息检索学术会议论文集[C];2010年
4 奚宁;赵迎功;汤光超;李斌;罗春勇;戴新宇;陈家骏;;统计机器翻译中多种语言模型的融合[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 努尔艾力·喀迪尔;彭良瑞;;基于SRILM的阿拉伯和维吾尔文语言模型建立方法[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
7 苏韬;汪俊杰;孙甲松;王作英;;基于最大似然估计的语言模型自适应[A];第六届全国人机语音通讯学术会议论文集[C];2001年
8 任纪生;王作英;赵敏;;基于潜在语义信息的汉语语音识别方法[A];中文信息处理技术研讨会论文集[C];2004年
9 张建平;庹凌云;孙宝海;汪俊杰;刘建;颜永红;;LVCSR系统中语言模型的参数选择与性能评测[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
10 詹津明;牟晓隆;李树青;方棣棠;;一个大字表语音识别系统中的语言模型[A];第五届全国人机语音通讯学术会议论文集[C];1998年
中国重要报纸全文数据库 前10条
1 清华大学 刘加;识别语音的几种依据[N];计算机世界;2006年
2 清华大学 刘加;语音识别应用促进技术发展[N];计算机世界;2006年
3 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
4 郝亭;软件是怎样“炼”成的[N];工人日报;2000年
5 何中军米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
6 中科院计算技术研究所 吕雅娟付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
7 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
8 石天强;“凡客体”中的资本欲望[N];中国教育报;2010年
9 北京清华大学电子工程系副教授 刘加 教授 刘润生;让机器听懂我的话[N];科技日报;2001年
10 骆卫华 刘群 张俊林;搜索引擎:性能提高遇到瓶颈[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
2 肖镜辉;非时齐语言建模技术研究及实践[D];哈尔滨工业大学;2007年
3 刘鹏远;基于知识自动获取的无指导译文消歧方法研究[D];哈尔滨工业大学;2008年
4 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
5 王欢良;基于混淆网络和辅助信息的语音识别技术研究[D];哈尔滨工业大学;2007年
6 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
7 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
8 方淼;语义单元自动获取研究[D];大连理工大学;2008年
9 黎志升;地理信息检索若干技术研究[D];中国科学技术大学;2009年
10 郑铁然;基于音节网格的汉语语音文档检索方法研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 张润延;海量语言模型的研究及其在机器翻译中的应用[D];厦门大学;2009年
2 李新生;基于改进语言模型的相关反馈方法的检索系统设计[D];北京邮电大学;2011年
3 刘盈;大词表连续语音识别系统的研究与实现[D];清华大学;2005年
4 汤小娜;词义消歧在统计机器翻译中的应用研究[D];厦门大学;2007年
5 沈默;平板电脑上语言模型的开发与测试[D];清华大学;2005年
6 陈龙;面向日文输入法的混合语言模型的改进与实现[D];哈尔滨工业大学;2012年
7 梁奇;语言模型自适应方法在嵌入式系统中应用的研究[D];清华大学;2006年
8 唐永明;基于关联词的复句语言模型[D];北京邮电大学;2009年
9 楚彦凌;基于数据聚类的语言模型研究[D];北京邮电大学;2010年
10 邵佳;旅游领域问句语音识别中规则语言模型自动构建研究[D];昆明理工大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026