收藏本站
《华南理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

互联网信息检索中的多样化排序研究及应用

林古立  
【摘要】:随着信息技术的高速发展,互联网已成为目前世界上最大的信息库。互联网信息检索系统的诞生,为几们从互联网上获取信息提供了巨大的便利。然而随着信息检索研究的不断深入,许多学者逐渐意识到了一个影响用户检索满意度的重要因素——用户的多样化需求。而传统的排序模型无法满足这样的需求,于是产生了信息检索领域一个新的研究热点——多样化排序。 用户的多样化需求要求信息检索系统在对检索结果进行排序时,必须挖掘用户查询所蕴含的各种潜在意图,在结果列表靠前的位置中尽可能地提供满足用户各种需求的检索结果。在用户潜在意图集合未知的情况下,如何根据用户提交的查询词对结果文档进行排序,从而最大化用户的满意度,是多样化排序问题研究的核心问题和难点。现有的研究成果主要可以归纳为两类:隐式多样化排序和显式多样化排序。它们分别从两种不同的角度对多样化问题进行剖忻和解决,前者大多基于一定的假设,刻画不同文档在信息面蕴含上的差异,在此基础上选择具有差异性的文档子集实现多样化;后者则大多尝试直接对用户潜在意图集合进行估计,在此基础上选择能够满足不同意图的文档子集实现多样化。 本文以互联网信息检索中的多样化排序及直用为研究主线,分别从上述两种不同的角度对多样化排序问题进行分忻和解决。首先,从隐式多样化排序方法的关键问题——信息面蕴含的差异性入手,分别从文档相似度比较和信息空间覆盖的角度提出了两种多样化排序方法,一定程度上改善了现有方法容易导致的排序结果冗余问题;然后,从显式多样化排序方法的关键问题——用户潜在意图集合估计入手,提出同时从系统和用户的角度对潜在意图集合进行估计,以获得更好的多样化排序结果;最后基于上述研究成果构建了一个多样化排序系统。 本文的刨新主要体现在以下几点: 1、提出了一种基于吸收马尔可夫随机游走的多样化排序算法DAlIAR。该算法从文档相似度比较入手,针对现有排序算法Gasshopper的相似度比较策略容易导致排序结果冗余的问题,采用了一种新的文档相似度比较策略,该策略利用了吸收马尔可夫链中状态吸收时间的特性,可以更合理地表示文档在主题蕴含上的差异。实验结果表明,DArAR算法的多样化效果要优于Gasshopper算法。 2、从隐式多样化排序方法的出发点入手,把多样化问题形式化为文档集合效用最大化问题,并分析了该问题的NP难特性,证明了目标函数的次模性。在此基础上,提出了一种基于文档相似度比较的多样化排序框架,并对该框架的性能进行理论分忻。该工作一定程度上完善了多样化排序问题研究的理论体系。 3、提出了一种基于关键词的多样化排序原型KED。该原型从信息空间覆盖的角度入手,提出用关键词作为与用户查询相关的信息空间的基本元素;针对现有方法只独立考虑词的重要性所可能带来的冗余问题,首次提出对关键词之间的距离进行建模,以刻画关键词在主题蕴含上的差异。实验表明,KED可以较稳定地获得比现有多种隐式多样化排序方法更好的多样化效果;且相比单词,KED抽取的关键词可以明显提高KED的多样化效果。 4、提出了一种基于网页主题聚类和用户点击的在线多样化排序算法cRBA。该算法从用户潜在意图集合估计入手,首次提出同时从系统和用户的角度对潜在意图集合进行估计,先利用主题聚类从系统的角度获得对潜在意图集合一个较粗略的估计,然后通过与用户的交互逐渐获得对用户意图的较好估计,从而动态调整文档排序,以满足用户的各种需求。该算法的有效性在实验中得到验证。此外,文中还证明cRBA算法在最坏情况下的性能在一定条件下存在下界。 5、设计并实现一个多样化排序系统。该系统既可以利用现有搜索引擎强大的检索能力,又能对搜索结果进行多样化排序,具有一定的实用价值。
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.3

【共引文献】
中国期刊全文数据库 前10条
1 秦洋;王立宏;武栓虎;宋宜斌;;基于拉普拉斯矩阵的DNA序列集相似性分析[J];北京交通大学学报;2009年06期
2 徐天顺;;谱聚类算法研究[J];电脑知识与技术;2012年16期
3 陈姿羽;黄靖;李伟鹏;;一种改进的自适应谱聚类图像分割算法[J];南方医科大学学报;2012年05期
4 孔万增;孙志海;杨灿;戴国骏;孙昌思核;;基于本征间隙与正交特征向量的自动谱聚类[J];电子学报;2010年08期
5 钱鹏江;王士同;邓赵红;徐华;;基于最小包含球的大数据集快速谱聚类算法[J];电子学报;2010年09期
6 程学旗;沈华伟;;复杂网络的社区结构[J];复杂系统与复杂性科学;2011年01期
7 彭艳斌;艾解清;;基于谱聚类波段选择的高光谱图像分类[J];光电工程;2012年02期
8 程登彪;;泊松随机变量的模拟及应用[J];高等函授学报(自然科学版);2012年02期
9 卢志茂;徐森;刘远超;顾国昌;;使用“分裂-合并"策略改进文本聚类集成算法的研究[J];高技术通讯;2010年07期
10 孙妍;刘向丽;;关于概率统计课程教学改革的几点思考[J];中国科教创新导刊;2007年17期
中国重要会议论文全文数据库 前5条
1 ;A Persistent Game Graph in Computer GO[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
2 王小磊;张瑾;许洪波;;基于交互增强原理的多文档自动文摘算法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 Benjie Lu;Zhingging Liu;;PROLOG WITH BEST FIRST SEARCH[A];第25届中国控制与决策会议论文集[C];2013年
4 Rui Li;Yueqiu Wu;Andi Zhang;Chen Ma;Bo Chen;Shuliang Wang;;Technique Analysis and Designing of Program with UCT Algorithm for NoGo[A];第25届中国控制与决策会议论文集[C];2013年
5 Yuxia Sun;Cheng Liu;Hongkun Qiu;;The Research on Patterns and UCT Algorithm in NoGo Game[A];第25届中国控制与决策会议论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 宋军;水交换模型的理论方法及应用研究[D];中国海洋大学;2010年
3 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
4 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年
5 吕绍高;统计学习中回归与正则化谱聚类算法的研究[D];中国科学技术大学;2011年
6 张大明;基于图理论的图像分割和分类算法研究[D];安徽大学;2011年
7 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年
8 陈潇;图像目标三维几何不变量特征构造与应用[D];上海交通大学;2011年
9 陈李钢;基于赞助搜索的关键字广告最优策略研究[D];哈尔滨工业大学;2011年
10 李博;基于场景外观建模的移动机器人视觉闭环检测研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 李静伟;基于共享近邻的自适应谱聚类算法[D];大连理工大学;2010年
2 孙玉侠;数据挖掘中的谱聚类算法研究[D];中国海洋大学;2010年
3 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
4 毛菥;基于文本分析技术的新闻阅读平台的研究与实现[D];浙江大学;2011年
5 张汉珍;谱划分算法中特征向量选取方法的研究[D];西安电子科技大学;2010年
6 王蓓金;蛋白质网络模块分解的密度聚类算法研究[D];西安电子科技大学;2010年
7 雷玲;离散正则化方法在草场检测上的研究与应用[D];吉林大学;2011年
8 钱新宇;基于实例推理的虚拟装配序列规划研究[D];大连海事大学;2011年
9 肖峰;GPU高性能运算在计算机围棋博弈系统中的应用研究及实验[D];北京邮电大学;2011年
10 黄晶;计算机围棋博弈中UCT算法的应用及改进[D];北京邮电大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 叶鹰,马景娣,黄晨,朱聪,胡晓珍,刘琼;信息检索网上自助教学探索[J];大学图书馆学报;2000年02期
2 李慧敏,方敏,张雪梅;高校信息检索教育课教学改革构想[J];山东图书馆季刊;2001年02期
3 吴良凯;大学生信息检索教育的现状与对策[J];图书馆论坛;2003年05期
4 罗映红;基于网络的信息检索与信息检索能力的培养[J];高校图书馆工作;2004年02期
5 李其港;对高职信息检索课程教学改革的构思[J];职教论坛;2004年23期
6 李宙星;;浅析互联网信息超载[J];中国西部科技;2004年16期
7 陈璐;;亚马逊网络书店的信息检索[J];图书馆研究与工作;2004年04期
8 赖俊;周琳;张学平;;基于Web挖掘的主题式搜索引擎的设计[J];军事通信技术;2004年03期
9 王雅戈;Openfind搜索引擎功能解析[J];江西图书馆学刊;2005年02期
10 彭波,闫宏飞;搜索引擎检索系统质量评估[J];计算机研究与发展;2005年10期
中国重要会议论文全文数据库 前10条
1 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
2 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
3 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
9 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
10 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 刘静一;个人档案信息检索[N];建筑报;2000年
5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
6 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
7 刘立新;信息社会技术前瞻[N];学习时报;2006年
8 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
9 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
10 夏飞平 蒋光君;深圳局:信息检索实现“一点通”[N];中国国门时报;2009年
中国博士学位论文全文数据库 前10条
1 王彪;信息检索中信息需求域的研究[D];内蒙古大学;2012年
2 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
4 董道国;高维数据索引结构研究[D];复旦大学;2005年
5 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
7 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
8 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
9 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
10 汪志鹏;私有信息检索技术研究[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
2 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
3 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
4 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
5 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
6 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
7 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
8 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
9 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
10 吴媛媛;移动终端上个人信息检索核心子系统的设计与实现[D];北京邮电大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026