收藏本站
《中国科学院研究生院(计算技术研究所)》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计语言建模的信息检索及相关研究

丁国栋  
【摘要】: 本文对基于统计语言建模(SLM, Statistical Language Modeling)的信息检索方法进行了较为详细的论述,着重阐述了查询似然检索模型的基本思想和原理,并介绍了一些改进的模型,如KL距离检索模型等。在这一基础上,针对SLM检索方法中文档建模和查询建模这两个关键问题,本文就文档语言模型的平滑估计、启发式查询扩展及其在查询似然检索模型中的整合以及查询语言模型的估计和联想式扩展等几个方面作了较为深入的研究。 针对查询似然检索模型中文档一元语言模型的平滑估计问题,本文详细地分析了几种常用的平滑方法对检索性能的影响模式和平滑参数的最优取值规律,探讨了平滑在查询似然检索模型中所扮演的功能角色,提出了一种改进的线性插值平滑方法GJM-2,利用文档中不同词项的个数这一统计信息来改善平滑的效果。考虑到传统的平滑方法在进行平滑处理时对不同词项的差异性有所忽视,本文还提出了基于词项风险的平滑模型,将词项风险引入传统的平滑方法。实验结果表明,与传统的平滑方法相比,GJM-2平滑方法和基于词项风险的平滑模型均能有效地提高检索性能。 在信息检索中,启发式查询扩展是改善检索性能的重要技术手段。我们研究了在查询似然检索模型中如何进行启发式查询扩展的问题。针对查询似然检索模型在实现查询扩展上存在的先天不足,我们通过引入查询词的权重信息对查询似然检索模型进行了改进,提出了WQL检索模型,从而可以将传统的各种启发式查询扩展方法很自然地整合进来,实验结果验证了整合的有效性。此外,通过对传统扩展方法的分析,本文还提出了一种基于局部共现的查询扩展方法LOCOOC,利用候选词与初始查询在局部文档集合中的共现程度来评估候选词的质量,并整合了候选词在文档集中的全局统计信息,使得选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。实验结果表明:基于WQL检索模型,采用LOCOOC扩展方法可以使检索性能(平均准确率)提高40%以上;与传统的几种典型的扩展方法相比,该扩展方法具有更为优越的扩展性能。 启发式的查询扩展方法采用的是启发式的扩展词选取策略和权重修正策略,缺乏严格的数学推导和理论依据。本文研究了KL距离检索模型架构内如何利用统计语言模型实现查询扩展的问题,从查询语言模型反推的角度探讨了查询扩展的实现途径,为查询扩展的理论研究提供了一条可行的思路。考虑到词项之间具有一定的主题内部依赖关系,本文提出了基于词项联想式扩展的反推策略,将词项之间的统计依赖关系整合到查询语言模型的反推过程中。在这种反推策略中,我们提出了“词项联想网络”(WAN, Word Association Network)的概念用以描述词项之间的统计依赖关系,阐述了利用WAN对查询语言模型进行反推的基本思路和方法,并给出了两种度量词项依赖概率的有效方法。
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP391.3

手机知网App
【引证文献】
中国博士学位论文全文数据库 前1条
1 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 张伟;李夕兵;宫凤强;;基于专家信息融合法的岩土参数概率分布推断[J];地下空间与工程学报;2005年06期
2 苏岩;贝叶斯统计的发展及其争鸣[J];保定师范专科学校学报;2003年02期
3 杨振波,何积铨,李成华,朱敏,梅学平,张玉光;用三要素综合评估混凝土中钢筋腐蚀状态[J];北京科技大学学报;2003年02期
4 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
5 王辉;用于决策支持的贝叶斯网络[J];东北师大学报(自然科学版);2001年04期
6 王辉;用于预测的贝叶斯网络[J];东北师大学报(自然科学版);2002年01期
7 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
8 王辉,王双成,周颜军,张剑飞;基于广义朴素贝叶斯分类器的空值处理方法[J];东北师大学报(自然科学版);2004年01期
9 张邦佐;王辉;张剑飞;左万利;;以核心变量为基础的离散贝叶斯网络结构学习[J];东北师大学报(自然科学版);2005年04期
10 谢斌,张明珠,严于鲜;贝叶斯网络对故障树方法的改进[J];燕山大学学报;2004年01期
中国重要会议论文全文数据库 前9条
1 Yangu Zhang1,Ming Yao2, Bin Shen2 1 (School of Computer Science & Engineering, Wenzhou University, Wenzhou, Zhejiang 325027) 2 (School of Computer,Zhejiang University,Hangzhou,Zhejiang 310028);A Recursive Method of Learning Bayesian Network for Rule Extraction Based on Information Theory[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 樊建聪;梁永全;唐雷雨;曾庆田;;一种新的令牌群模型及其在数据挖掘中的应用[A];2007'仪表,自动化及先进集成技术大会论文集(二)[C];2007年
3 白璐;;指数型产品可靠性评估的一种Bayes方法[A];2005第二届电子信息系统质量与可靠性学术研讨会论文集[C];2005年
4 李海军;王钲旋;王利民;苑森淼;;基于主成分分析提升朴素贝叶斯[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
5 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
6 SSLI-Laboratory, Dept. of Electrical Engineering, University ofWashington EE/CS Bldg, Box 352500, Seattle, WA 98195, USA;DIRECTED GRAPHICAL MODELS OF CLASSIFIER COMBINATION: APPLICATION TO PHONE RECOGNITION[A];The Proceedings of the 6~(th) International Conference on Spoken Language Processing (Volume Ⅲ)[C];2000年
7 Hongwei Zhang;Yuchang Lu State Key Laboratory of Intelligent Technology&Systems Department of Computer Science&Technology Tsinghua University Beijing 100084 China;Learning Bayesian Network Classi■ers from Data with Missing Values[A];2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering Proceedings[C];2002年
8 SHI Hong-Bo;WANG Zhi-Hai;HUANG Hou-Kuan;Jing Li-Ping School of Computer and Information Technology, Northem Jiaotong University, Beiing, 100044;Text Classification Based on the TAN Model[A];2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering Proceedings[C];2002年
9 Kefei Cheng, Cong Zhang, Rongdi Yuan, Linlin Wang institute of Computer Science and Technology Chongqing University, Chongqing University of Posts and Telecommunications Chongqing, P.R. China,;CHPC and Naive Bayesian Based Concurrent Communication System Exception Detecting[A];2005'第四届光互联网国际学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 金少华;电工产品可靠性评估方法与贝叶斯理论的应用[D];河北工业大学;2002年
2 洪净;中医辩证量化方法学研究[D];湖南中医学院;2002年
3 WANG Jiayue;[D];广东外语外贸大学;2003年
4 荔建琦;进化决策的模型、关键技术与应用研究[D];中国人民解放军国防科学技术大学;2002年
5 李俭川;贝叶斯网络故障诊断与维修决策方法及应用研究[D];中国人民解放军国防科学技术大学;2002年
6 李启青;遥感数据处理的遗传优化及其组合算法研究[D];中国科学院研究生院(遥感应用研究所);2004年
7 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
8 陈湘涛;数据仓库与数据挖掘技术在新型铝电解控制系统中的应用研究[D];中南大学;2004年
9 徐丽;基于模态参数的混凝土框架结构损伤诊断研究[D];湖南大学;2004年
10 王运琼;车辆识别系统中几个关键技术的研究[D];四川大学;2004年
中国硕士学位论文全文数据库 前10条
1 胡振宇;贝叶斯学习的先验分布的研究[D];广西师范大学;2001年
2 王波波;基于小波变换的CR影像滤波方法研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2002年
3 李曼;基于JEP的分类算法研究[D];郑州大学;2002年
4 谢莉萍;仿真结果用于试验鉴定的理论与方法研究[D];国防科学技术大学;2002年
5 黄伟杰;基于主动贝叶斯分类器检测未知恶意可执行代码的研究与实现[D];广西师范大学;2002年
6 翟艳敏;威布尔分布场合的贝叶斯统计推断[D];西南交通大学;2002年
7 韩亚洪;结合内容与链接分析搜索特定主题的权威Web信息源[D];河海大学;2003年
8 向旭宇;邮件安全审计和过滤技术研究与实现[D];中国人民解放军国防科学技术大学;2003年
9 戚宗锋;电子装备小子样试验方法研究[D];中国人民解放军国防科学技术大学;2002年
10 曾献军;贝叶斯方法在雷达情报判性中的应用研究[D];中国人民解放军国防科学技术大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 温有奎;基于“知识元”的知识组织与检索[J];计算机工程与应用;2005年01期
2 孙成江,吴正荆;知识服务战略:创建增值联盟[J];情报科学;2002年10期
3 王永成,顾晓明,王丽霞;中文文献主题的自动标引[J];情报学报;1998年03期
4 王知津;从情报组织到知识组织[J];情报学报;1998年03期
5 马费成,陈锐,袁红;科学信息离散分布规律的研究从文献单元到内容单元的实证分析(I):总体研究框架[J];情报学报;1999年01期
6 蒋永福,李景正;论知识组织方法[J];中国图书馆学报;2001年01期
7 文庭孝;侯经川;龚蛟腾;刘晓英;汪全莉;;中文文本知识元的构建及其现实意义[J];中国图书馆学报;2007年06期
8 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
9 张瑞强,王作英,陆大 ;关于汉语音字转换中语言模型零概率的问题[J];电子学报;1998年08期
10 姜维;关毅;王晓龙;刘秉权;;基于支持向量机的音字转换模型[J];中文信息学报;2007年02期
中国重要会议论文全文数据库 前2条
1 华绍和;蒋顺炳;陈一凡;;有关汉字键盘输入的国家标准与规范[A];中国中文信息学会汉字编码专业委员会第八届年会、中国计算机学会中文信息技术专业委员会第六届年会暨汉字输入技术与应用研讨会论文集[C];2002年
2 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前8条
1 肖怀志;基于本体的历史年代知识元应用研究[D];武汉大学;2005年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 谷建军;基于叙词表的中医古籍文献领域本体建模方法研究[D];中国中医科学院;2006年
4 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
5 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
6 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
7 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
8 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前10条
1 宋爽;共现分析在文本知识挖掘中的应用研究[D];南京理工大学;2006年
2 成鹏;基于语义Web的知识元集成模型研究[D];西安电子科技大学;2007年
3 葛连兵;学术文献知识元数据库管理平台的设计与应用[D];清华大学;2006年
4 韩卓平;基于统计语言模型的手机中文输入系统的研究与实现[D];苏州大学;2006年
5 吴鹏;基于Markov链的整句输入算法研究与实现[D];北京邮电大学;2007年
6 张素玲;新时期以来的新词语发展研究[D];天津师范大学;2008年
7 王志勇;基于统计语言学模型的中文文本信息检索[D];第二军医大学;2004年
8 毛伟;基于统计语言模型的中文自动文本分类系统[D];北京邮电大学;2006年
9 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年
10 陈波;中文统计自然语言处理隐马模型的研究[D];重庆大学;2003年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 俞洋;基于主动服务的用户导航系统[D];武汉理工大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 黄美军;;搜索引擎中的软件技术浅析[J];科技传播;2010年14期
2 施侃晟;刘海涛;舒平达;;一种提高文本检索准确性的关联方法[J];计算机应用与软件;2010年05期
3 朱鲲鹏;刘文涵;王晓龙;刘远超;;基于日志挖掘的检索推荐系统[J];沈阳建筑大学学报(自然科学版);2009年02期
4 徐志明,王晓龙,关毅;汉语大词表N-gram统计语言模型构造算法[J];计算机应用研究;1999年06期
5 肖燕;20世纪我国信息检索研究的历史回顾[J];图书馆学研究;1999年06期
6 叶鹰,马景娣,黄晨,朱聪,胡晓珍,刘琼;信息检索网上自助教学探索[J];大学图书馆学报;2000年02期
7 李慧敏,方敏,张雪梅;高校信息检索教育课教学改革构想[J];山东图书馆季刊;2001年02期
8 高升,徐志明;统计语言模型中词的自动聚类技术研究[J];计算机工程与应用;2003年11期
9 郭燕慧,钟义信;统计语言模型中句子的语义连贯性判别[J];情报学报;2003年04期
10 吴良凯;大学生信息检索教育的现状与对策[J];图书馆论坛;2003年05期
中国重要会议论文全文数据库 前10条
1 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
2 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
3 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
9 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
10 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 刘静一;个人档案信息检索[N];建筑报;2000年
5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
6 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
7 刘立新;信息社会技术前瞻[N];学习时报;2006年
8 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
9 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
10 夏飞平 蒋光君;深圳局:信息检索实现“一点通”[N];中国国门时报;2009年
中国博士学位论文全文数据库 前10条
1 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
2 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
4 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
5 董道国;高维数据索引结构研究[D];复旦大学;2005年
6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
7 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
8 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
9 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
10 马马杜 桑卡雷;基于多智能体的流体动力行业虚拟联盟信息检索的研究[D];浙江大学;2002年
中国硕士学位论文全文数据库 前10条
1 李贞;基于统计语言模型的中文网页信息检索研究[D];华中师范大学;2012年
2 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
3 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
4 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
5 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
6 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
7 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
8 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
9 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
10 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026