收藏本站
《中国科学技术大学》 2010年 博士论文
收藏 | 手机打开
二维码
手机客户端打开本文

排序学习中基于直接优化信息检索评价准则算法的理论分析

何因  
【摘要】:随着互联网技术的迅速发展,互联网上的信息量也以惊人的速度不断地膨胀,从海量的互联网信息中准确快捷的获取所需信息也变得日益困难。搜索引擎的出现正是为了使人们能够从海量的互联网信息中快速和便捷地获取所需信息。搜索引擎背后的关键技术是网页排序算法。如何设计一个有效的网页排序算法是信息检索领域中十分重要和流行的课题。近年来,将机器学习方法引入排序学习获得了很大成功,吸引了越来越多研究人员的注意。 在排序学习领域中,直接优化信息检索评价准则算法已经成为一个重要分支。由于信息检索评价准则(例如MAP和NDCG)的不连续和不可导性导致其难以优化。直接优化信息检索评价准则算法的核心思想是通过优化一个与信息检索评价准则近似的替代函数达到优化信息检索评价准则的目的。我们称此替代函数为替代评价准则。 直接优化信息检索评价准则算法的一个关键性基础问题是-对替代评价准则的优化是否能保证对相应的信息检索评价准则的优化?这个问题的解答,将直接决定直接优化信息检索评价准则算法的理论正确性。因为,如果对替代评价准则的优化不能保证对相应的信息检索评价准则的优化,那么直接优化信息检索评价准则算法将无法从理论上保证能够获得一个性能良好的排序模型。然而目前并无任何工作对这个问题有深入的理论研究,故而研究人员对直接优化信息检索评价准则的理论性质并不了解。 本论文以直接优化信息检索评价准则算法的一个关键性基础问题(对替代评价准则的优化是否能保证对相应的信息检索评价准则的优化)为主线,以探索直接优化信息检索评价准则算法的理论性质为目标,创新性的提出了直接性和趋势相关性两个概念,用于以衡量替代评价准则与相应的信息检索评价准则之间的关系。并以直接性和趋势相关性为分析工具,获得了主流的直接优化信息检索评价准则算法中替代评价准则的理论性质。最后通过在公共基准数据集LETOR上对各个直接优化信息检索评价准则算法的实验验证了本文所得的理论分析结果,说明了用直接性和趋势相关性来衡量替代评价准则与相应的信息检索评价准则之间关系的科学性和正确性。 ·本论文首先提出直接性和趋势相关性两个概念以衡量替代评价准则与相应的信息检索评价准则的关系。我们从理论上证明了,如果一个替代评价准则,相对于一个信息检索评价准则而言,具有任意大的直接性,或者任意强的趋势相关性,则对此替代评价准则的优化能保证对相应的信息检索评价准则的优化。 ·在理论研究结论的基础上,我们分析了主流的直接优化信息检索评价准则算法的直接性和趋势相关性。通过理论分析,证明了SoftRankNDCG, ApproxRankMAP, ApproxRankNDCG中所优化的替代评价准则,在合适的参数设置下(例如,令SoftRankNDCG中参数σs→0以及ApproxRankMAP和ApproxRankNDCG中参数α→∞),对任意数据分布都能具有任意大的直接性和任意强的趋势相关性。证明了SVMMAP,DORMNDCG, PermuRankMAP,SVMNDCG所优化的替代评价准则在某类数据分布上不能具有任意大的直接性和任意强的趋势相关性。因此,我们得到了SoftRankNDCG,ApproxRankMAP,ApprixRankNDCG相比于SVMMAP, DORMNDCG, PermuRankMAP,SVMNDCG具备更好的理论性质,因而能获得更好的排序性能的结论。 ·最后通过在公共基准数据集LETOR上的实验研究,我们验证了对主流直接优化信息检索评价准则算法所优化的替代评价准则的直接性和趋势相关性的理论研究结果,说明了用直接性和趋势相关性衡量替代评价准则与相应的信息检索评价准则直接关系的科学性和正确性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李勇,徐振宁,张维明,黄凯歌,李由,汤大权;智能协作信息技术在信息检索中的应用[J];计算机与现代化;2001年04期
2 何平;网络环境下图书馆计算机信息检索途径探讨[J];贵州师范大学学报(自然科学版);2001年02期
3 储节旺,鲍克忠;网上信息检索目标与策略的转换[J];情报理论与实践;2002年01期
4 杨凌云;构建信息检索理论新体系[J];图书情报工作;2002年01期
5 霍艳蓉;Web信息检索的关键技术[J];现代图书情报技术;2002年06期
6 王林;网络环境中信息检索的特点及发展趋势[J];图书馆学研究;2002年02期
7 胡明,王小虎,刘钢;基于页面链接挖掘的Web信息检索[J];情报杂志;2003年09期
8 吴良凯;大学生信息检索教育的现状与对策[J];图书馆论坛;2003年05期
9 陈红梅;网络环境下大学生的信息检索教育[J];图书馆学研究;2003年08期
10 任衍具,张智君;当前国外有关超文本信息检索的工效学研究[J];人类工效学;2003年02期
11 Yúi Kagolovsky,Jochn RMhr,李文红;信息检索中“相关性”概念评价的一种方法[J];医学情报工作;2003年02期
12 李雪梅;论Web信息检索的二维性知识行为[J];情报杂志;2004年01期
13 施晓华,黄骥;信息检索新技术应用[J];情报科学;2005年08期
14 范缜修,刘志飞;提高“信息检索与利用课”实效性刍议[J];河北科技师范学院学报(社会科学版);2005年03期
15 郑红军;;理论与技术融合的典范——评《信息检索理论与技术》[J];图书馆杂志;2005年06期
16 何晓聪;跨语言信息检索初探[J];情报科学;2005年02期
17 孙鑫;信息检索中相关性反馈用法研究[J];情报杂志;2005年03期
18 无华;;《实用信息检索》拟再版[J];上海高校图书情报工作研究;2005年04期
19 倪坚;陈世平;胡成梅;;分布式计算在Web信息检索中的应用[J];微计算机信息;2006年03期
20 胡必云;黄因生;谢荣传;;基于语义的Web信息检索[J];计算机技术与发展;2006年10期
中国重要会议论文全文数据库 前10条
1 ;前言[A];第五届全国信息检索学术会议论文集[C];2009年
2 闫昱;何守才;;Web信息检索中的超连接分析[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
3 ;前言[A];第六届全国信息检索学术会议论文集[C];2010年
4 ;前言[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 徐祥来;郭士忠;张丽华;;钢铁行业信息检索基础知识与研究[A];2008年河北省轧钢技术与学术年会论文集(上)[C];2008年
6 张玥杰;郭依昆;吴立德;;面向英汉的跨语言信息检索关键技术研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 ;第一届全国信息检索与内容安全学术会议组织情况[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
10 肖冬青;杨沐昀;李生;齐浩亮;赵铁军;;基于用户点击信息检索评价方法综述[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 黎志升;地理信息检索若干技术研究[D];中国科学技术大学;2009年
2 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
3 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
4 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
5 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
6 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
7 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年
8 马马杜 桑卡雷;基于多智能体的流体动力行业虚拟联盟信息检索的研究[D];浙江大学;2002年
9 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
10 王振峰;基于本体的地理事件信息检索[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 易磊;私有信息检索及其应用的研究[D];安徽大学;2011年
2 周艳;基于本体的信息检索的研究与应用[D];电子科技大学;2010年
3 陈丽珍;维文网络中不良文本信息检索、监控系统的研究[D];新疆大学;2006年
4 许婷;信息检索结果优化研究[D];华中师范大学;2007年
5 蒋明亮;基于CSCW的信息检索技术应用研究[D];广东工业大学;2007年
6 张添;影响信息检索行为的因素分析[D];河北大学;2014年
7 丁鹏宇;本体在信息检索中的应用及其进化机制研究[D];华东师范大学;2010年
8 王程;语义网络环境下的信息检索模式研究[D];黑龙江大学;2006年
9 魏丕国;基于本体的信息检索系统模型研究[D];山东科技大学;2007年
10 郑杰;基于本体的信息检索模型的设计与实现[D];四川大学;2007年
中国重要报纸全文数据库 前10条
1 记者 王慧 实习生 阿柔娜;首府专利信息检索对外开放日活动首次开启[N];呼和浩特日报(汉);2010年
2 朱华顺 东莞理工学院图书馆馆员;高校“信息检索”课:培养读者以最少时间和精力获取信息[N];中国图书商报;2013年
3 梅竹;清华摘取国际信息检索比赛两项桂冠[N];计算机世界;2002年
4 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;“海”中捞“珍”[N];计算机世界;2003年
5 骆卫华 刘群 张俊林;搜索引擎:性能提高遇到瓶颈[N];计算机世界;2006年
6 刘畅;让网络政工“言归正传”[N];战士报;2006年
7 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
8 希安;微软试水信息检索[N];经济日报;2004年
9 刘立新;信息社会技术前瞻[N];学习时报;2006年
10 王伟 史忠植;通用与专业[N];计算机世界;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978