收藏本站
《武汉大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

搜索引擎检索功能的性能评价研究

费巍  
【摘要】: 搜索引擎评价研究是信息检索领域研究的热点之一,网络信息和信息检索技术的发展推动了搜索引擎实践的发展。为了满足用户日益增长的信息需求,搜索引擎除了完善其简单检索功能外,也不断开发高级检索功能。这些检索功能旨在帮助用户获取高质量的网络信息,但它们的检索性能并不为人所知。本文以搜索引擎检索结果的相关性和排序质量为两个核心评价指标,对当前主流搜索引擎的主要检索功能进行了评价。本研究的成果一方面可以帮助用户在利用搜索引擎进行信息检索时选取恰当的检索策略,另一方面则可以知道不同的检索功能对搜索引擎检索性能的影响。 在第一章中,笔者论述了近年来搜索引擎及其评价研究的现状。在大量文献的基础上,对研究内容、方法、特点、不足以及发展趋势进行了总结。目前搜索引擎评价研究主要以相关性研究为核心内容,以实验方法、调查方法、数据分析法、观察法、综述和评论等为主要的研究方法,具有依附性、动态性、多样化、重视用户参与等特点。然而搜索引擎评价研究还有所不足,主要在于缺乏不同检索功能之间检索效率的比较以及检索结果排序质量的评价等方面。随着多媒体信息的发展,对搜索引擎多媒体检索功能的评价必将成为今后研究的热点。 在第二章中,笔者指出,相关性是搜索引擎评价的基础指标,并由此衍生出检索结果的排序质量这一指标,相关性根据网页的形式和内容进行评判,结果排序的质量由检索结果的排列次序和排序的稳定性决定。围绕这两个核心指标,笔者构建了一套评价体系,并根据一定的标准选取了5个中英文搜索引擎以及5种检索功能作为研究对象。英文搜索引擎为Google、Yahoo和MSN/Live/Bing,中文搜索引擎为百度和谷歌,5种检索功能分别为题名检索、短语检索、PDF检索、URL检索和普通检索,其中以普通检索作为比较分析的基准。 在第三章中,笔者对所研究的内容提出了假设,并设计了实验步骤。应用层次分析法对相关性的评价指标进行了分析,从一系列的指标中选取了检索结果的全文、摘要、题名、网页有效性、用户负担和网页长度等核心指标来衡量网页的相关性,并对检索结果相关性的计算方法进行了修正,用修正的相关性计算公式来衡量每一检索功能检索结果的整体相关性。方差分析法用于比较分析搜索引擎各检索功能之间的检索效率是否具有显著性差异。如果存在显著性差异,Tukey多重比较检验法则会用于探究造成这一差异的原因。同时,通过回归分析法评价检索结果排序的次序和稳定性。 在第四章中,基于50,000份数据,笔者应用了方差分析法对5个搜索引擎的5种检索功能进行了评价,结果显示各检索功能之间的检索效率存在显著性差异,Tukey多重比较检验法探明了造成这一差异的原因。在各检索功能中,PDF检索的效率最高,其余依次为题名检索、普通检索、短语检索和URL检索。在各检索功能的稳定性测评中,普通检索的稳定性要优于其他检索功能。英文搜索引擎中,Yahoo!在5种检索功能中的检索效率均高于Google和MSN/Live/Bing,其次为Google, MSN/Live/Bing的检索效率最差。中文搜索引擎中,谷歌题名检索、普通检索、PDF检索和URL检索的检索效率要明显优于百度,短语检索两者并无显著区别。 在第五章中,笔者利用回归分析法的曲线估计方法比较分析了5个搜索引擎的5种检索功能的结果排序质量。英文搜索引擎中,普通检索的结果排序质量最好,URL检索最差,中文搜索引擎中,URL检索的结果排序质量最差,百度的PDF检索结果排序质量最好,谷歌的题名检索结果排序质量最好。数据显示,中文搜索引擎检索结果的排序质量与英文搜索引擎相比具有较大的差距。 在第六章中,笔者指出,在数据收集和分析的过程中,发现中英文搜索引擎无论在检索效率还是在检索结果排序上,都存在较大的差距。针对中文搜索引擎目前存在的问题,笔者提出了相应的优化策略,不仅要加强中文网页的质量建设,还要推动开放存取的发展,这样可以从源头上提升中文网络资源质量。搜索引擎应该具备强有力的信息过滤能力,同时谨慎采用一些商业行为人为干扰检索结果的排序。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 李建廷;;元搜索引擎中搜索结果的采集与处理[J];电子科技;2010年06期
2 李建廷;;基于模糊积分的元搜索引擎结果排序算法[J];计算机仿真;2010年07期
3 刘凤玲;马松岩;;Lucene相似度计算方法研究和改进[J];南宁职业技术学院学报;2011年03期
4 张琳;陶振凯;;基于Lucene的全文检索系统的改进方法[J];沈阳理工大学学报;2008年04期
5 王新;刘晓霞;;基于关联规则挖掘的垂直元搜索引擎研究[J];计算机工程;2011年04期
6 江腾蛟;万常选;;面向XML文档的模糊检索排序模型[J];情报杂志;2006年10期
7 江腾蛟;万常选;;针对XML文档集的关键词检索结果排序[J];计算机工程;2007年02期
8 寻杨;;个性化科研信息检索系统的探讨与设计[J];济宁学院学报;2009年06期
9 刘红;;多特征图像检索排序学习算法研究[J];计算机与信息技术;2009年05期
10 赵颖川;王万良;蒋一波;;基于SVM的视频检索系统框架[J];计算机系统应用;2010年07期
中国重要会议论文全文数据库 前2条
1 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
2 郭鸿志;陈清才;康永燕;王晓龙;;一种基于网站特征识别的搜索引擎排序算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前1条
1 文坤梅;基于本体知识库推理的语义搜索研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 李宪雷;元搜索关键技术研究与实现[D];北京工业大学;2008年
2 黄艳;基于Web的个性化信息检索技术研究[D];西北大学;2008年
3 邓凡;基于元搜索的专业搜索引擎的研究与实现[D];西北大学;2008年
4 苏碧;基于元搜索的双语智能翻译搜索引擎的研究[D];武汉理工大学;2009年
5 李胜;基于粒子群优化算法的中文全文检索系统研究与开发[D];四川大学;2006年
6 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
7 张琳;基于Lucene的电子公文检索系统的研究与实现[D];沈阳理工大学;2009年
8 黄磊;关系库中面向Semantic Cloud的关键词查找技术的研究与实现[D];东北大学;2010年
9 黄梵;基于双层语义分析的文档排序方法研究[D];华中师范大学;2013年
10 王新;一种垂直元搜索引擎的研究[D];西北大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978