收藏本站
《北京交通大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

搜索引擎网页相关性评估方法设计及其在rank模型上的应用

李珏伶  
【摘要】:伴随着互联网的高速发展,网上信息呈爆炸式增长,普通网络用户从互联网上查找所需资料有如大海捞针。针对这种现象,搜索服务应运而生。搜索引擎技术根据网页相关性、站点的权威度等因素将网页进行综合排名,用户在搜索所需信息时,质量高的结果得到优先展现,这对普通网络用户来说有重大意义。搜索引擎的目标是最大程度上满足用户查找信息的需求,但在实际检索中,发现对于一些查询频次低、线上资源少的搜索需求,搜索引擎很难将相关程度高的结果优先返回给用户,导致用户进行检索的体验较差。 本文所介绍的相关性评估是提升搜索质量的一个基础而核心的步骤,评估工作可以发现目前搜索引擎技术的缺陷,提高搜索质量,搜索引擎相关性评估工作的成果,将影响到数亿用户的搜索体验。冷门query(关键词、查询词)相关性评估项目通过对查询频次低的query进行网页相关性评估,分析目前rank模型存在的问题,进而改善用户在冷门query检索上的体验。本人的主要工作如下: 1.在相关性4档评估方法的基础上,设计了相关性5档评估方法,这也是本文的重要创新点; 2.通过德尔菲用户相关性评估实验,得到来自于用户真实的相关性评估数据,将相关性4档打分和5档打分的网页数据标注结果进行曲线拟合,以证明相关性5档打分方法对于冷门query相关性评估具有明显的精确性; 3.组织用户对冷门query对应的百度、Google网页数据进行相关性评估,并对评估结果进行宏观统计分析,量化百度与Google的检索差距,量化百度与理想情况下的检索差距。通过具体例子分析rank模型的问题,指出模型的改进方向。 本文设计并使用的相关性5档评估方法为rank模型问题分析提供了更为精确的数据支持,以改善用户使用搜索引擎检索冷门query的体验感受。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前7条
1 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
2 李志蜀,李果;中文搜索引擎的原理剖析及开发实现技术[J];计算机应用研究;2001年11期
3 宛玲,杨秀丹,杜晓静;试析中文搜索引擎的评价标准[J];情报科学;2000年01期
4 余艳;搜索引擎原理剖析及其技术发展[J];图书馆学刊;2004年01期
5 王芳,张晓林;元搜索引擎:原理与利用[J];现代图书情报技术;1998年06期
6 万志峰;搜索引擎的技术现状及其发展趋势[J];现代图书情报技术;2004年S1期
7 李晓明,刘建国;搜索引擎技术及趋势[J];中国计算机用户;2000年09期
中国硕士学位论文全文数据库 前1条
1 胡桓;基于加权边介数的Web社区发现方法[D];大连理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 王锡钢,刘振文;搜索引擎技术的分析与研究[J];鞍山钢铁学院学报;2002年06期
2 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
3 周燕;网络信息资源组织研究[J];图书与情报;2003年01期
4 胡誉耀;元搜索引擎在数字图书馆中的运用[J];图书与情报;2003年05期
5 庞孝梅;浅谈网络信息资源开发的实现方式[J];重庆工学院学报;2005年03期
6 陆婷婷;;基于高职院校图书馆服务的信息检索[J];出国与就业(就业版);2011年22期
7 张澎;王鲁达;唐日成;;电子商务中的数据挖掘[J];湘南学院学报;2009年02期
8 刘志勇;网络环境下信息检索效率的评价[J];大连大学学报;2002年01期
9 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
10 丁伟;谢彦峰;张忠林;;一种基于用户兴趣的搜索引擎输入信息处理方法[J];电脑与信息技术;2008年05期
中国重要会议论文全文数据库 前4条
1 杨卫明;;独立式搜索引擎原理及存在问题分析[A];2008年计算机应用技术交流会论文集[C];2008年
2 曹红;袁津生;;多领域主题搜索引擎研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
3 刘雪芹;齐大朝;;基于robot的全文搜索引擎原理剖析[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
4 ;Web搜索引擎原理与应用[A];四川省通信学会2005年学术年会论文集[C];2005年
中国博士学位论文全文数据库 前8条
1 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
4 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
5 金燕;WWW信息导航机制研究[D];武汉大学;2005年
6 刘甲学;超媒体信息空间智能导航理论与实证研究[D];吉林大学;2006年
7 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
8 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
3 俆雯;基于文本相似度的局部Web社区识别技术[D];大连理工大学;2010年
4 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
5 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
6 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
7 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
8 孙华昱;Lucene在医学影像资源检索平台中的应用[D];沈阳工业大学;2011年
9 刘海涛;基于自然语言理解的中文搜索引擎[D];河北科技大学;2011年
10 李伟;搜索引擎核心词提取系统设计与实现[D];北京交通大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 储荷婷;国际互联网检索工具:特点、比较和发展方向[J];大学图书馆学报;1997年03期
3 夏定元;多媒体网络中的图像搜索引擎技术[J];电子技术;2001年10期
4 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
5 黄于蓝,王洪,徐端颐,贾惠波;多元搜索引擎系统的设计与实现[J];计算机工程与应用;2001年23期
6 张晓刚,李明树;智能搜索引擎技术的研究与发展[J];计算机工程与应用;2001年24期
7 李岩,陈新中,杨炳儒;基于Web挖掘的智能门户搜索引擎的研究[J];计算机工程与应用;2002年04期
8 王剑;邵志清;;大规模中文搜索引擎的架构和设计技术[J];计算机科学;2002年01期
9 王丽坤;王宏;陆玉昌;;文本挖掘及其关键技术与方法[J];计算机科学;2002年12期
10 杨杰,徐炜民;搜索引擎技术的运用与研究[J];计算机工程;2002年01期
【相似文献】
中国期刊全文数据库 前10条
1 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期
2 ;关键词搜索[J];每周电脑报;2000年38期
3 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
4 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期
5 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期
6 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期
7 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期
8 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期
9 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期
10 闫凡蕾;建设站内搜索的好帮手——Search Engine Maker[J];少年电世界;2003年08期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 李珏伶;搜索引擎网页相关性评估方法设计及其在rank模型上的应用[D];北京交通大学;2011年
2 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
3 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
4 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
5 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
6 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
9 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
10 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026