收藏本站
《中国科学技术大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于排序学习的信息检索模型研究

程凡  
【摘要】:“信息检索”(Information Retrieval),又称为“情报检索”,它是指将信息按一定方式组织和存贮起来,并针对用户要求找出所需信息的过程。其核心问题是如何根据候选文档(或候选网页)和用户给定查询的相关性产生一个检索模型。早期的信息检索模型虽然构造方法简单,但精度较低,难以获得用户满意的检索结果。对此,近些年国外有学者提出把一种新的学习方法—排序学习(learning to rank)应用到检索模型的构造上,以期获得更精确的检索结果。所谓的排序学习是指,使用机器学习技术和有标签的数据自动产生一个检索(排序)模型。由于在文档检索,协同滤波等领域的广泛应用,最近几年排序学习的研究受到国内外学者越来越多地关注,并成为逐渐当前机器学习领域的一个研究热点。 本论文旨在研究基于排序学习的信息检索模型。通过从Pointwise法,Pairwise法,Listwise法等多个角度设计更为高效的排序算法,以期构造更为精确的排序模型。具体而言,论文的工作主要包括以下几个方面: (1)针对传统Ranking SVM算法得到的排序模型在用NDCG等信息检索标准来评价效果不好。提出一种对原算法的改进算法。新算法首先设计了一个查询级的框架,在此基础上定义了一个面向NDCG的目标函数,针对该目标的非光滑,提出使用割平面算法进行求解。基准数据集上的实验证明了所提算法的有效性。 (2)针对已有“直接优化评估标准”算法或基于"Pairwise"法或基于"Listwise"法。而对于使用"Pointwise"法解决上述问题缺乏关注,提出两个基于"Pointwise"法的排序算法。两算法均以NDCG为优化目标,但定义了不同的目标函数并使用了不同的优化技术。具体而言,第一个算法使用基于margin-rescaling的算法框架,在此基础上设计了面向NDCG的凸目标函数,并提出使用割平面算法进行求解。针对已有割平面算法对割平面的选择,往往使“主问题”值的变化存在一定的波动,降低算法的效率。文中给出一个高效线性搜索算法,以此决定新的割平面选择,保证了“主问题”值变化地单调递减。第二个算法采用基于slack-rescaling的算法框架,并定义了面向NDCG的一个非凸目标函数,该函数比已有的凸目标函数更加紧凑。针对函数的非凸非光滑,提出首先使用凹-凸过程进行逼近,然后再使用割平面算法进行求解。基准数据集上的实验证明了所提算法的有效性。 (3)提出一种结合Listwise法和Pairwise法的新型排序算法。算法将排序学习分为两个阶段,第一阶段为“主学习”阶段,该阶段采用Listwise法,在本阶段算法首先选择1-slack SVM为学习工具,然后定义了学习目标,该目标更关注排名靠前的相关文档。针对目标函数的约束条件太多,难以直接计算,提出使用割平面算法进行求解。对于算法内部的“寻找最违背排列”的子过程,提出将其看成一个降序排列的过程,并使用快速排序法求解。算法的第二个阶段为第一阶段基础上的“再次精化”。为此,算法采用Pairwise法的框架,并将原RankingSVM的凸铰链函数,变为非凸Sigmoid函数,确保了第二阶段解为原解基础上的局部最优。基准数据集上的实验结果表明:相比起已有的Pairwise算法和直接优化评估标准的Listwise算法,本文提出的两阶段排序算法所获得的模型更为精确,在不同等级数据集上的表现也更加稳定。 (4)针对已有Ranking SVM算法对异常点比较敏感,提出利用非凸Ramp Loss来抑制异常点的影响。具体来说,文中对原有的Ranking SVM算法提出了两种改进的算法。一种是直接将原有的凸Hinge Loss变成非凸Ramp Loss,针对该目标函数的非凸非光滑,提出使用凹-凸过程进行凸逼近,然后使用在线学习进行学习;另一种是将“选择样本技术”引入到对训练数据的预处理中来,即利用Ramp Loss函数作为过滤器,删除那些可能的异常点数据,并用剩余的数据进行学习。不同数据集上的实验结果表明:相比起已有的Ranking SVM算法,所提算法能够有效的抑制异常点的影响,获得更精确的排序模型,同时,由于算法具有更少的支持向量,在运行时间上也具有明显的优势。 作为信息检索和机器学习的一个交叉课题,本文的研究具有重要的意义。一方面研究的成果可直接应用于文档检索,协同滤波,专家发现,情感分析,过滤垃圾邮件等领域。另一方面,文中用到的一些机器学习方面的理论和优化方法,对于其它相关研究,比如:自然语言解析(natural language parsing)、生物信息中序列对比(sequence alignment)、标签序列学习(label sequence learning)等也提供了技术上的支持。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.3

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 刘椿年,苌彩卿,黄佳进,欧创新;基于Boosting的市场值函数算法及其评价[J];北京工业大学学报;2004年03期
2 蒋宗礼;徐学可;;一种基于集成学习与类指示器的文本分类方法[J];北京工业大学学报;2010年04期
3 罗森林;李金玉;潘丽敏;;特定类型音频流泛化识别方法[J];北京理工大学学报;2011年10期
4 樊宁;苏菲;;改进的人脸检测训练方法[J];北京邮电大学学报;2008年04期
5 罗兵;余光柱;;不平衡类分布下多分类问题的提升算法[J];长江大学学报(自科版)理工卷;2007年02期
6 Young-joon HAN;Hern-soo HAHN;;Vehicle Detection in Still Images by Using Boosted Local Feature Detector[J];Journal of Measurement Science and Instrumentation;2010年01期
7 魏昱宁;张丽;王吉军;魏小鹏;郝博;;基于Adaboost的快速视频人脸检测[J];大连大学学报;2008年03期
8 张振宇;;稳健的多支持向量机自适应提升算法[J];大连交通大学学报;2010年02期
9 严超;王元庆;李久雪;张兆扬;;AdaBoost分类问题的理论推导[J];东南大学学报(自然科学版);2011年04期
10 路刚;;基于指数损失的PCA方法研究[J];电脑知识与技术;2010年19期
中国重要会议论文全文数据库 前7条
1 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
2 李小红;李寅;谢成明;;基于连续Adaboost彩色图像人脸检测算法[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
3 邹志强;何中市;冷崇钦;;一种最大化分类间隔的感知器训练算法[A];2008年计算机应用技术交流会论文集[C];2008年
4 黄力行;辛乐;赵礼悦;陶建华;;自适应权重的双模态情感识别[A];第九届全国人机语音通讯学术会议论文集[C];2007年
5 眭新光;沈蕾;燕继坤;朱中梁;;基于Adaboost的文本隐写分析[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 张奇;翁富良;黄萱菁;吴立德;;英文口语中非流利区域的检测[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 张红梅;高海华;王行愚;;抑制样本噪声的AdaBoost算法及其在入侵检测中的应用[A];2007年中国智能自动化会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 汪澎;驾驶人警觉状态检测技术研究[D];江苏大学;2010年
2 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
3 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
4 殷慧;基于局部特征表达的高分辨率SAR图像城区场景分类方法研究[D];武汉大学;2010年
5 徐迪红;复杂背景下的交通标志检测和分类算法研究[D];武汉大学;2010年
6 李军;不平衡数据学习的研究[D];吉林大学;2011年
7 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
8 刘冲;模拟电路故障诊断AdaBoost集成学习方法研究[D];大连海事大学;2011年
9 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
10 赖志辉;基于流形学习的稀疏人脸特征提取[D];南京理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 李海燕;互信息特征选择的研究及在代谢组学中的应用[D];大连理工大学;2010年
2 马颖哲;多视角人脸检测技术的研究[D];辽宁工程技术大学;2010年
3 张晶晶;人脸检测与人脸特征定位技术研究[D];广西民族大学;2010年
4 李苏;基于AdaBoost算法的人脸检测技术研究[D];哈尔滨理工大学;2010年
5 聂尧;基于AdaBoost和Cascade算法的人脸检测[D];昆明理工大学;2009年
6 刘兆军;基于人脸识别的考勤系统的设计与实现[D];电子科技大学;2010年
7 魏云龙;人脸识别特征提取算法研究[D];电子科技大学;2011年
8 王健;基于Gentle Adaboost算法的人脸检测研究[D];电子科技大学;2011年
9 曹剑;移动场景动目标识别算法研究[D];西安工业大学;2011年
10 武亚昆;融合多种图像特征的人像检索技术研究[D];太原理工大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 柳巧玲;米天胜;;基于语义网的智能信息检索研究[J];科技管理研究;2008年08期
2 赖茂生;屈鹏;;相关性基础理论及其在检索建模中的作用研究[J];情报理论与实践;2008年06期
3 乔亚男;齐勇;侯迪;;高阶信息检素问题相关研究进展[J];中国科技论文在线;2009年01期
4 刘静;;关于知识检索的思考[J];内江科技;2009年06期
5 李娟;;基于本体论的个性化信息检索[J];黑龙江科技信息;2009年35期
6 马文峰;杜小勇;;知识检索研究[J];情报理论与实践;2006年02期
7 丁政建;李飞;;基于本体的信息检索技术的研究[J];科学技术与工程;2008年13期
8 樊红侠;;基于粗糙—模糊集的Web信息检索改进模型[J];现代图书情报技术;2008年08期
9 虞为;曹加恒;曾承;黄敏;陈俊鹏;;基于语义索引词的语义网信息检索模型[J];计算机工程;2007年03期
10 李学庆;贾玉文;;基于本体论的个性化网络信息检索[J];图书馆学研究;2007年01期
中国重要会议论文全文数据库 前10条
1 梅伟;刘惟一;;基于可信度的信息检索模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 谭继志;罗匡;王衡;汪国平;;智能接听系统中的用户建模与算法研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年
3 邓志鸿;张铭;陈捷;杨冬青;唐世渭;;基于本体的Web信息检索模型初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 张玉连;陈琳娜;陈金森;;基于本体的个性化服务用户模型研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
5 马少平;张敏;;信息检索研究:过去三十年中我们走了多远[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
7 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
9 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
10 李永强;刘杰;李允公;李祥;;Daubechies小波基的算法设计[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
中国重要报纸全文数据库 前10条
1 通讯员 黄慧文;吉隆全体党员开展“比学促学”活动[N];日喀则报;2008年
2 冀灵渊 朔城区四中;为学生创设快乐的学习情境[N];朔州日报;2010年
3 民乐县逸夫小学 宋晓华;用爱心培养学生主动学习的兴趣[N];张掖日报;2005年
4 姜堰市东桥中心小学 杨爱军;在课文课堂中渗透心理教育[N];成才导报.教育周刊;2005年
5 师炜;西安学习经验可全省推广[N];西安日报;2003年
6 山东省临沭县白旄中学 张秀伟;如何培养中学生学习历史的习惯[N];学知报;2011年
7 本报记者 靳晓燕;哦,学习是能倒着来的[N];光明日报;2011年
8 郭佳 编译;21世纪的学习什么样[N];中国教师报;2011年
9 李林 余承武;努力把基层学习抓实抓深[N];战士报;2011年
10 剑河民族中学 刘明;刍议性格与学习的关系[N];贵州民族报;2011年
中国博士学位论文全文数据库 前10条
1 程凡;基于排序学习的信息检索模型研究[D];中国科学技术大学;2012年
2 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
3 覃姜维;迁移学习方法研究及其在跨领域数据分类中的应用[D];华南理工大学;2011年
4 周琰;大学生认识信念研究[D];南京师范大学;2011年
5 李军;不平衡数据学习的研究[D];吉林大学;2011年
6 吕佳;基于局部学习的半监督分类问题研究[D];内蒙古大学;2012年
7 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
8 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
9 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
10 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
中国硕士学位论文全文数据库 前10条
1 顾雅枫;基于用户兴趣模型的信息检索研究[D];兰州大学;2009年
2 汪晨;基于本体的信息检索系统研究[D];合肥工业大学;2007年
3 丁志刚;基于类别意图的信息检索模型[D];北京邮电大学;2009年
4 唐俊;基于概念格的个性化信息检索研究[D];西华大学;2006年
5 王程;语义网络环境下的信息检索模式研究[D];黑龙江大学;2006年
6 赵嫣;信息检索中结构化文档相关度计算方法的研究[D];山东大学;2007年
7 刘春泳;中文问答系统中信息检索模型的研究[D];重庆大学;2007年
8 李立;中文信息检索系统研究[D];华中师范大学;2008年
9 贾文杰;基于多Agent的个性化信息检索技术的研究[D];哈尔滨工业大学;2007年
10 赵爽;基于贝叶斯网络的结构化文档检索[D];河北大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026