收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

信息检索中排序学习方法的研究

林原  
【摘要】:信息检索的核心问题是排序,即如何把用户最需要的信息排列在返回列表前面。目前信息检索排序方法主要分成两类:一类是以网页文档内容为基础,判断文档和用户查询的相关性的方法;另一类则是以网页链接分析为基础,判断网页在网络中的重要程度的方法。两类方法都有各自重要的意义,对于满足用户需求有很强的互补作用。一般的检索策略是选择其中的一种排序结果作为排序依据,而这样仅选择单一的排序方法的策略,越来越难满足用户对于检索结果准确率的要求。因此,信息检索领域开始了排序方法融合的研究。此方面最有成效的研究就是排序学习方法。它的基本要领是以机器学习模型为基础,以信息检索排序方法作为特征,以文档和用户意图的相关性为判断条件,训练排序模型,对文档进行排序,从而有效地提高了排序准确率。本文在前人的排序学习研究基础上,主要对模型和损失函数进行了研究,进一步提高了排序学习模型的相关性预测能力。本文主要研究工作包括以下三方面: (1)对于已有的Listwise方法损失函数进行研究,探索改进Listwise方法的可能性;针对已有的Listwise框架损失函数所存在的问题,提出了一种基于组样本的排序学习框架,并对其进行改进。提出了两种组样本的构造方法:一种是One-group样本,该样本是由一个相关性较高的文档与一个相关性较低的文档集合构成的;另一种是Group-group样本,该样本由一组相关性较高的文档集合与一个相关性较低的文档集合所构成。根据这两种组样本定义不同的损失函数用于训练排序模型的。实验表明:基于组的排序学习方法能够有效的改善已有似然损失函数和交叉熵排序学习方法的性能;对于排序学习组样本的研究能够有效地提高检索结果的排序准确率。 (2)排序学习的特征选取对于排序模型的预测结果有着很大的影响,而排序学习对其特征领域的研究却很少,有鉴于此,本文基于两方面的考虑对排序学习特征进行了研究。第一,探索如何利用已有的排序学习特征为基础,挖掘新的特征构造模式,采用半监督学习方法,利用奇异值分解方法,从非标注语料中获取新的特征;第二,探索如何构建新的特征,用于排序学习模型的训练。以往的信息检索方法倾向于选择单一的方法和参数作为排序的唯一标准,而对于一种模型来说,单一的方法或参数很难发挥该模型的全部功效,本文以语言模型方法为基础,采用多内容域、多平滑方法、多参数的形式构造排序特征,用以丰富特征空间,同时将排序学习应用于语言模型多种平滑方法的融合,有效地提高了语言模型方法的相关性排序准确率。在Letor数据集上的实验结果,表明将新特征集合加入到已有的排序学习特征空间后,能够显著地改善已有的排序学习方法排序准确率,因此本文所提出的特征提取方法能有效地改善排序模型的性能。 (3)排序学习方法虽然源自于信息检索中的相关性排序问题,但是其模型和思想亦可用于信息检索的其他领域。社会化标注是一种很好的资源,提供了大量的有助于改善检索效果的信息,然而已有的查询扩展方法从社会化标注中提取扩展词,对原始查询性能的改善效果并不显著,因此本文采用排序学习方法对从社会化标注中进行扩展词提取,通过排序学习方法构造词排序模型将其应用于查询扩展过程当中,用于提高查询扩展方法的性能。在TREC数据集上的实验结果表明,基于排序学习的查询扩展方法在改善信息检索性能方面,要好于已有的基于伪相关反馈的扩展词提取方法,并为排序学习方法应用于其他领域的研究提供了一个新的思路。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 肖燕;20世纪我国信息检索研究的历史回顾[J];图书馆学研究;1999年06期
2 叶鹰,马景娣,黄晨,朱聪,胡晓珍,刘琼;信息检索网上自助教学探索[J];大学图书馆学报;2000年02期
3 李慧敏,方敏,张雪梅;高校信息检索教育课教学改革构想[J];山东图书馆季刊;2001年02期
4 吴良凯;大学生信息检索教育的现状与对策[J];图书馆论坛;2003年05期
5 罗映红;基于网络的信息检索与信息检索能力的培养[J];高校图书馆工作;2004年02期
6 李其港;对高职信息检索课程教学改革的构思[J];职教论坛;2004年23期
7 李宙星;;浅析互联网信息超载[J];中国西部科技;2004年16期
8 陈璐;;亚马逊网络书店的信息检索[J];图书馆研究与工作;2004年04期
9 赖俊;周琳;张学平;;基于Web挖掘的主题式搜索引擎的设计[J];军事通信技术;2004年03期
10 王雅戈;Openfind搜索引擎功能解析[J];江西图书馆学刊;2005年02期
11 彭波,闫宏飞;搜索引擎检索系统质量评估[J];计算机研究与发展;2005年10期
12 王国金,康耀红;基于布尔检索策略的问答系统性能研究[J];科技广场;2005年10期
13 白菊平;;探讨提高中文文献信息检索质量的相关技术[J];农业图书情报学刊;2005年12期
14 刘俊熙;吴英;;信息检索和网络数据挖掘技术的比较分析[J];图书馆学刊;2005年06期
15 李雷;;常用医学搜索引擎简介[J];西北医学教育;2005年05期
16 韩梅;宁锐;;Google搜索引擎研究新进展[J];大学图书情报学刊;2006年01期
17 刘俊凤;;语义Web环境下基于Ontology的信息检索研究[J];情报科学;2006年04期
18 张选平;蒋宇;袁明轩;马琮;梁平;;一种基于概念的信息检索查询扩展[J];微电子学与计算机;2006年04期
19 王裕芳;;双语教学在“检索课”中的应用与探讨[J];江西图书馆学刊;2006年02期
20 刘策;;垂直搜索——电子商务领域的新秀[J];软件导刊;2006年11期
中国重要会议论文全文数据库 前10条
1 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
2 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
3 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
9 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
10 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 王彪;信息检索中信息需求域的研究[D];内蒙古大学;2012年
2 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
4 董道国;高维数据索引结构研究[D];复旦大学;2005年
5 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
7 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
8 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
9 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
10 汪志鹏;私有信息检索技术研究[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
2 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
3 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
4 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
5 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
6 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
7 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
8 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
9 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
10 吴媛媛;移动终端上个人信息检索核心子系统的设计与实现[D];北京邮电大学;2011年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 刘静一;个人档案信息检索[N];建筑报;2000年
5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
6 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
7 刘立新;信息社会技术前瞻[N];学习时报;2006年
8 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
9 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
10 夏飞平 蒋光君;深圳局:信息检索实现“一点通”[N];中国国门时报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978