收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于排序学习的信息检索模型研究

程凡  
【摘要】:“信息检索”(Information Retrieval),又称为“情报检索”,它是指将信息按一定方式组织和存贮起来,并针对用户要求找出所需信息的过程。其核心问题是如何根据候选文档(或候选网页)和用户给定查询的相关性产生一个检索模型。早期的信息检索模型虽然构造方法简单,但精度较低,难以获得用户满意的检索结果。对此,近些年国外有学者提出把一种新的学习方法—排序学习(learning to rank)应用到检索模型的构造上,以期获得更精确的检索结果。所谓的排序学习是指,使用机器学习技术和有标签的数据自动产生一个检索(排序)模型。由于在文档检索,协同滤波等领域的广泛应用,最近几年排序学习的研究受到国内外学者越来越多地关注,并成为逐渐当前机器学习领域的一个研究热点。 本论文旨在研究基于排序学习的信息检索模型。通过从Pointwise法,Pairwise法,Listwise法等多个角度设计更为高效的排序算法,以期构造更为精确的排序模型。具体而言,论文的工作主要包括以下几个方面: (1)针对传统Ranking SVM算法得到的排序模型在用NDCG等信息检索标准来评价效果不好。提出一种对原算法的改进算法。新算法首先设计了一个查询级的框架,在此基础上定义了一个面向NDCG的目标函数,针对该目标的非光滑,提出使用割平面算法进行求解。基准数据集上的实验证明了所提算法的有效性。 (2)针对已有“直接优化评估标准”算法或基于"Pairwise"法或基于"Listwise"法。而对于使用"Pointwise"法解决上述问题缺乏关注,提出两个基于"Pointwise"法的排序算法。两算法均以NDCG为优化目标,但定义了不同的目标函数并使用了不同的优化技术。具体而言,第一个算法使用基于margin-rescaling的算法框架,在此基础上设计了面向NDCG的凸目标函数,并提出使用割平面算法进行求解。针对已有割平面算法对割平面的选择,往往使“主问题”值的变化存在一定的波动,降低算法的效率。文中给出一个高效线性搜索算法,以此决定新的割平面选择,保证了“主问题”值变化地单调递减。第二个算法采用基于slack-rescaling的算法框架,并定义了面向NDCG的一个非凸目标函数,该函数比已有的凸目标函数更加紧凑。针对函数的非凸非光滑,提出首先使用凹-凸过程进行逼近,然后再使用割平面算法进行求解。基准数据集上的实验证明了所提算法的有效性。 (3)提出一种结合Listwise法和Pairwise法的新型排序算法。算法将排序学习分为两个阶段,第一阶段为“主学习”阶段,该阶段采用Listwise法,在本阶段算法首先选择1-slack SVM为学习工具,然后定义了学习目标,该目标更关注排名靠前的相关文档。针对目标函数的约束条件太多,难以直接计算,提出使用割平面算法进行求解。对于算法内部的“寻找最违背排列”的子过程,提出将其看成一个降序排列的过程,并使用快速排序法求解。算法的第二个阶段为第一阶段基础上的“再次精化”。为此,算法采用Pairwise法的框架,并将原RankingSVM的凸铰链函数,变为非凸Sigmoid函数,确保了第二阶段解为原解基础上的局部最优。基准数据集上的实验结果表明:相比起已有的Pairwise算法和直接优化评估标准的Listwise算法,本文提出的两阶段排序算法所获得的模型更为精确,在不同等级数据集上的表现也更加稳定。 (4)针对已有Ranking SVM算法对异常点比较敏感,提出利用非凸Ramp Loss来抑制异常点的影响。具体来说,文中对原有的Ranking SVM算法提出了两种改进的算法。一种是直接将原有的凸Hinge Loss变成非凸Ramp Loss,针对该目标函数的非凸非光滑,提出使用凹-凸过程进行凸逼近,然后使用在线学习进行学习;另一种是将“选择样本技术”引入到对训练数据的预处理中来,即利用Ramp Loss函数作为过滤器,删除那些可能的异常点数据,并用剩余的数据进行学习。不同数据集上的实验结果表明:相比起已有的Ranking SVM算法,所提算法能够有效的抑制异常点的影响,获得更精确的排序模型,同时,由于算法具有更少的支持向量,在运行时间上也具有明显的优势。 作为信息检索和机器学习的一个交叉课题,本文的研究具有重要的意义。一方面研究的成果可直接应用于文档检索,协同滤波,专家发现,情感分析,过滤垃圾邮件等领域。另一方面,文中用到的一些机器学习方面的理论和优化方法,对于其它相关研究,比如:自然语言解析(natural language parsing)、生物信息中序列对比(sequence alignment)、标签序列学习(label sequence learning)等也提供了技术上的支持。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 柳巧玲;米天胜;;基于语义网的智能信息检索研究[J];科技管理研究;2008年08期
2 赖茂生;屈鹏;;相关性基础理论及其在检索建模中的作用研究[J];情报理论与实践;2008年06期
3 乔亚男;齐勇;侯迪;;高阶信息检素问题相关研究进展[J];中国科技论文在线;2009年01期
4 刘静;;关于知识检索的思考[J];内江科技;2009年06期
5 李娟;;基于本体论的个性化信息检索[J];黑龙江科技信息;2009年35期
6 马文峰;杜小勇;;知识检索研究[J];情报理论与实践;2006年02期
7 丁政建;李飞;;基于本体的信息检索技术的研究[J];科学技术与工程;2008年13期
8 樊红侠;;基于粗糙—模糊集的Web信息检索改进模型[J];现代图书情报技术;2008年08期
9 虞为;曹加恒;曾承;黄敏;陈俊鹏;;基于语义索引词的语义网信息检索模型[J];计算机工程;2007年03期
10 李学庆;贾玉文;;基于本体论的个性化网络信息检索[J];图书馆学研究;2007年01期
11 许研;沈夏炯;刘宗田;;基于FCA的搜索引擎的信息检索模型及其实现(英文)[J];南昌工程学院学报;2007年01期
12 邢国林;王基一;岑婷婷;;覆盖粒计算在信息检索模型中的应用[J];河南师范大学学报(自然科学版);2009年02期
13 乔亚男;齐勇;史椸;侯迪;王晓;;一种基于权重矩阵的临近词检索问题解决框架[J];计算机科学;2009年07期
14 冯茜芦;潘金贵;;一种基于句子的信息检索模型研究[J];计算机应用与软件;2010年03期
15 王少永;;信念网络技术在科技文献检索中的应用[J];硅谷;2011年07期
16 何志林;王春红;;矩阵奇异值分解在隐含语义信息检索中的应用[J];现代计算机(专业版);2011年06期
17 陈杰;孙忠贵;王玲;;基于SOFM网络的快速信息检索[J];情报科学;2006年02期
18 张学福;;信息检索可视化基本问题研究[J];中国图书馆学报;2006年03期
19 李静;桂慕梅;张剑;;基于本体的知识服务[J];图书馆工作与研究;2007年04期
20 黄丰;;信息可视化检索模型及应用探析[J];情报探索;2007年10期
中国重要会议论文全文数据库 前10条
1 梅伟;刘惟一;;基于可信度的信息检索模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 谭继志;罗匡;王衡;汪国平;;智能接听系统中的用户建模与算法研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年
3 邓志鸿;张铭;陈捷;杨冬青;唐世渭;;基于本体的Web信息检索模型初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 张玉连;陈琳娜;陈金森;;基于本体的个性化服务用户模型研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
5 马少平;张敏;;信息检索研究:过去三十年中我们走了多远[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
7 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
9 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
10 李永强;刘杰;李允公;李祥;;Daubechies小波基的算法设计[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
中国博士学位论文全文数据库 前10条
1 程凡;基于排序学习的信息检索模型研究[D];中国科学技术大学;2012年
2 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
3 覃姜维;迁移学习方法研究及其在跨领域数据分类中的应用[D];华南理工大学;2011年
4 周琰;大学生认识信念研究[D];南京师范大学;2011年
5 李军;不平衡数据学习的研究[D];吉林大学;2011年
6 吕佳;基于局部学习的半监督分类问题研究[D];内蒙古大学;2012年
7 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
8 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
9 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
10 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
中国硕士学位论文全文数据库 前10条
1 顾雅枫;基于用户兴趣模型的信息检索研究[D];兰州大学;2009年
2 汪晨;基于本体的信息检索系统研究[D];合肥工业大学;2007年
3 丁志刚;基于类别意图的信息检索模型[D];北京邮电大学;2009年
4 唐俊;基于概念格的个性化信息检索研究[D];西华大学;2006年
5 王程;语义网络环境下的信息检索模式研究[D];黑龙江大学;2006年
6 赵嫣;信息检索中结构化文档相关度计算方法的研究[D];山东大学;2007年
7 刘春泳;中文问答系统中信息检索模型的研究[D];重庆大学;2007年
8 李立;中文信息检索系统研究[D];华中师范大学;2008年
9 贾文杰;基于多Agent的个性化信息检索技术的研究[D];哈尔滨工业大学;2007年
10 赵爽;基于贝叶斯网络的结构化文档检索[D];河北大学;2006年
中国重要报纸全文数据库 前10条
1 通讯员 黄慧文;吉隆全体党员开展“比学促学”活动[N];日喀则报;2008年
2 冀灵渊 朔城区四中;为学生创设快乐的学习情境[N];朔州日报;2010年
3 民乐县逸夫小学 宋晓华;用爱心培养学生主动学习的兴趣[N];张掖日报;2005年
4 姜堰市东桥中心小学 杨爱军;在课文课堂中渗透心理教育[N];成才导报.教育周刊;2005年
5 师炜;西安学习经验可全省推广[N];西安日报;2003年
6 山东省临沭县白旄中学 张秀伟;如何培养中学生学习历史的习惯[N];学知报;2011年
7 本报记者 靳晓燕;哦,学习是能倒着来的[N];光明日报;2011年
8 郭佳 编译;21世纪的学习什么样[N];中国教师报;2011年
9 李林 余承武;努力把基层学习抓实抓深[N];战士报;2011年
10 剑河民族中学 刘明;刍议性格与学习的关系[N];贵州民族报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978