收藏本站
《武汉大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

搜索引擎检索功能的性能评价研究

费巍  
【摘要】: 搜索引擎评价研究是信息检索领域研究的热点之一,网络信息和信息检索技术的发展推动了搜索引擎实践的发展。为了满足用户日益增长的信息需求,搜索引擎除了完善其简单检索功能外,也不断开发高级检索功能。这些检索功能旨在帮助用户获取高质量的网络信息,但它们的检索性能并不为人所知。本文以搜索引擎检索结果的相关性和排序质量为两个核心评价指标,对当前主流搜索引擎的主要检索功能进行了评价。本研究的成果一方面可以帮助用户在利用搜索引擎进行信息检索时选取恰当的检索策略,另一方面则可以知道不同的检索功能对搜索引擎检索性能的影响。 在第一章中,笔者论述了近年来搜索引擎及其评价研究的现状。在大量文献的基础上,对研究内容、方法、特点、不足以及发展趋势进行了总结。目前搜索引擎评价研究主要以相关性研究为核心内容,以实验方法、调查方法、数据分析法、观察法、综述和评论等为主要的研究方法,具有依附性、动态性、多样化、重视用户参与等特点。然而搜索引擎评价研究还有所不足,主要在于缺乏不同检索功能之间检索效率的比较以及检索结果排序质量的评价等方面。随着多媒体信息的发展,对搜索引擎多媒体检索功能的评价必将成为今后研究的热点。 在第二章中,笔者指出,相关性是搜索引擎评价的基础指标,并由此衍生出检索结果的排序质量这一指标,相关性根据网页的形式和内容进行评判,结果排序的质量由检索结果的排列次序和排序的稳定性决定。围绕这两个核心指标,笔者构建了一套评价体系,并根据一定的标准选取了5个中英文搜索引擎以及5种检索功能作为研究对象。英文搜索引擎为Google、Yahoo和MSN/Live/Bing,中文搜索引擎为百度和谷歌,5种检索功能分别为题名检索、短语检索、PDF检索、URL检索和普通检索,其中以普通检索作为比较分析的基准。 在第三章中,笔者对所研究的内容提出了假设,并设计了实验步骤。应用层次分析法对相关性的评价指标进行了分析,从一系列的指标中选取了检索结果的全文、摘要、题名、网页有效性、用户负担和网页长度等核心指标来衡量网页的相关性,并对检索结果相关性的计算方法进行了修正,用修正的相关性计算公式来衡量每一检索功能检索结果的整体相关性。方差分析法用于比较分析搜索引擎各检索功能之间的检索效率是否具有显著性差异。如果存在显著性差异,Tukey多重比较检验法则会用于探究造成这一差异的原因。同时,通过回归分析法评价检索结果排序的次序和稳定性。 在第四章中,基于50,000份数据,笔者应用了方差分析法对5个搜索引擎的5种检索功能进行了评价,结果显示各检索功能之间的检索效率存在显著性差异,Tukey多重比较检验法探明了造成这一差异的原因。在各检索功能中,PDF检索的效率最高,其余依次为题名检索、普通检索、短语检索和URL检索。在各检索功能的稳定性测评中,普通检索的稳定性要优于其他检索功能。英文搜索引擎中,Yahoo!在5种检索功能中的检索效率均高于Google和MSN/Live/Bing,其次为Google, MSN/Live/Bing的检索效率最差。中文搜索引擎中,谷歌题名检索、普通检索、PDF检索和URL检索的检索效率要明显优于百度,短语检索两者并无显著区别。 在第五章中,笔者利用回归分析法的曲线估计方法比较分析了5个搜索引擎的5种检索功能的结果排序质量。英文搜索引擎中,普通检索的结果排序质量最好,URL检索最差,中文搜索引擎中,URL检索的结果排序质量最差,百度的PDF检索结果排序质量最好,谷歌的题名检索结果排序质量最好。数据显示,中文搜索引擎检索结果的排序质量与英文搜索引擎相比具有较大的差距。 在第六章中,笔者指出,在数据收集和分析的过程中,发现中英文搜索引擎无论在检索效率还是在检索结果排序上,都存在较大的差距。针对中文搜索引擎目前存在的问题,笔者提出了相应的优化策略,不仅要加强中文网页的质量建设,还要推动开放存取的发展,这样可以从源头上提升中文网络资源质量。搜索引擎应该具备强有力的信息过滤能力,同时谨慎采用一些商业行为人为干扰检索结果的排序。
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前4条
1 冯伟斌;;互动新媒体中一种新型的通信业务应用——视频黄页[J];信息通信技术;2011年05期
2 刘博晓;;基于引用关系和聚类分析的文献检索优化研究[J];情报理论与实践;2012年06期
3 刘鹏;邹华;;服务搜索引擎基于用户行为的效果评价[J];软件;2012年11期
4 张李义;陈明英;;搜索引擎的灵敏度和特异度研究[J];现代图书情报技术;2011年Z1期
中国硕士学位论文全文数据库 前3条
1 康有淞;网络商品信息搜索与抽取技术应用研究[D];河北工业大学;2012年
2 黄涛;布隆过滤器在网页去重中的研究与应用[D];大连海事大学;2013年
3 邓晓妹;基于点击日志的搜索引擎用户满意度评价研究[D];北京林业大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 黄帅;宋国新;;基于连续消除的六边形自适应搜索算法[J];计算机工程;2006年21期
2 曹林;韩立新;吴胜利;;元搜索引擎排序技术综述[J];计算机应用研究;2009年02期
3 赵华;;一种搜索引擎性能的简便评价方法和实例[J];图书馆理论与实践;2005年06期
4 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
5 宛玲,杨秀丹,杜晓静;试析中文搜索引擎的评价标准[J];情报科学;2000年01期
6 韩圣龙,赖茂生;网络信息检索工具评价实验(Ⅱ)——中、英文搜索引擎检索评价实验[J];情报科学;2001年04期
7 罗志成;关婉湫;张勤;;维基百科与百度百科比较分析[J];情报理论与实践;2009年04期
8 曾民族;网络信息检索现状和性能评价[J];情报学报;1997年02期
9 陈海龙;搜索引擎的评价标准及方法研究[J];情报杂志;2001年09期
10 刘奕群;岑荣伟;张敏;茹立云;马少平;;基于用户行为分析的搜索引擎自动性能评价[J];软件学报;2008年11期
中国重要报纸全文数据库 前2条
1 赵杰;[N];第一财经日报;2009年
2 杨谷;[N];光明日报;2006年
【共引文献】
中国期刊全文数据库 前10条
1 黄德玲;网络中文搜索引擎的比较研究[J];安徽教育学院学报;2004年04期
2 徐抗美;计算机文献检索方式的合理选择[J];安庆师范学院学报(自然科学版);1997年03期
3 王锡钢,刘振文;搜索引擎技术的分析与研究[J];鞍山钢铁学院学报;2002年06期
4 王建冬;王继民;;基于日志挖掘的高校用户期刊数据库检索行为研究[J];北京大学学报(自然科学版);2012年01期
5 王志庚;汪东波;;开放存取资源的管理与服务[J];国家图书馆学刊;2007年02期
6 刘晓英;叶文青;文庭孝;;构建知识地图——论现代目录学理论的发展与创新[J];图书与情报;2007年02期
7 曾伟忠;董畅;;数字时代目录学的历史使命和未来发展的思考[J];图书与情报;2012年02期
8 席永亮;;论网络化环境下图书馆信息资源的建设[J];巴音郭楞职业技术学院学报;2008年04期
9 桑婵;;现代目录学理论的发展与创新[J];才智;2011年20期
10 戴曦,纪驿桥;知识经济条件下的高校图书馆文献信息服务[J];成都信息工程学院学报;2002年01期
中国重要会议论文全文数据库 前9条
1 徐平;王静;孙鼎;;基于维基的探究性学习[A];2011中国针灸学会年会论文集(摘要)[C];2011年
2 陈玮;;基于数字目录学的网络参考咨询服务[A];福建省图书馆学会2009年学术年会论文集[C];2009年
3 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 张磊;李亚楠;王斌;李鹏;蒋在帆;;网页搜索引擎查询日志的session划分研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 王晓春;杨沐昀;李生;赵铁军;张志涛;;中文搜索引擎日志中查询分析的研究[A];第五届全国信息检索学术会议论文集[C];2009年
6 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
7 王倩;刘奕群;马少平;茹立云;;面向用户互联网访问日志的异常点击分析[A];第五届全国信息检索学术会议论文集[C];2009年
8 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
9 马莎莎;;文献检索过程的认知态及与之相关的显著性标引框架[A];中国煤炭学会成立五十周年高层学术论坛论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 李卓卓;信息资源共享系统绩效评估研究[D];武汉大学;2009年
2 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
3 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
4 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
5 周慧文;面向公众的政府网站的评估与应用研究[D];武汉大学;2005年
6 谷建军;基于叙词表的中医古籍文献领域本体建模方法研究[D];中国中医科学院;2006年
7 杨从科;中国农业科学数据资源建设研究[D];中国农业科学院;2007年
8 韩毅;语义网格环境下数字图书馆知识组织策略与应用研究[D];吉林大学;2008年
9 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
10 刘竟;面向概念检索的农史信息门户的设计与构建[D];南京农业大学;2008年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 张琪;网络舆论被主流媒体引导的必要性和可行性研究[D];上海外国语大学;2010年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 黄永;维基知识库研究[D];湘潭大学;2010年
5 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
6 许明敏;基于维基百科和web共现分析的概念关系网构建系统研究与实现[D];华东师范大学;2011年
7 宋健;基于主题挖掘和时间窗口划分的兴趣推荐技术研究[D];华东师范大学;2011年
8 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
9 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
10 奚杰;基于WEB日志的用户行为分析与挖掘[D];东华大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 程文涛;师雪霖;;以本体为指导的Web网页信息抽取方法[J];北京化工大学学报(自然科学版);2011年04期
3 马智峰;;参考文献的引用及影响引用的因素分析[J];编辑学报;2009年01期
4 杨成;;基于XML的网页信息提取系统的研究与设计[J];电脑知识与技术;2009年26期
5 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
6 胡瑜;王立志;;基于HTML结构特征的网页信息提取[J];辽宁石油化工大学学报;2009年03期
7 张灏;;我国呼叫中心的应用现状及未来发展趋势[J];光盘技术;2009年03期
8 聂莉;林翔;;基于媒介视野的电信黄页数字化转型与发展策略[J];广东通信技术;2011年06期
9 麻会东;刘国华;李现伟;刘春辉;;基于文档指纹的中文复制检测方法[J];广西师范大学学报(自然科学版);2007年04期
10 苏国荣;杨岳湘;邓劲生;;一种去除重复URL的算法[J];广西师范大学学报(自然科学版);2010年01期
中国重要会议论文全文数据库 前2条
1 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
2 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前10条
1 詹圣君;基于用户行为日志分析的搜索引擎排序算法研究[D];湖北工业大学;2011年
2 李珏伶;搜索引擎网页相关性评估方法设计及其在rank模型上的应用[D];北京交通大学;2011年
3 邓丹君;基于Lucene的垂直搜索引擎关键技术研究[D];武汉理工大学;2011年
4 施洋;模板独立的网页信息抽取研究[D];复旦大学;2011年
5 蔺继国;基于点击数据分析的个性化搜索引擎研究[D];国防科学技术大学;2010年
6 连浩;基于布尔模型的网页查重算法研究[D];中国科学院研究生院(计算技术研究所);2006年
7 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
8 王琳琳;基于HTML Parser的Web信息提取技术[D];北京邮电大学;2007年
9 唐利华;中国网通黄页业务发展战略研究[D];北京交通大学;2008年
10 李猛;基于DOM的Web信息抽取技术的研究与实现[D];大连理工大学;2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 胡榜利;黄鑫;杨光业;韦潇湘;杨光;刘英哲;;《Endoscopy》研究热点和知识图谱分析[J];国际消化病杂志;2013年05期
中国博士学位论文全文数据库 前1条
1 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 乔好勤,李锦兰;当代目录学的理论与实践[J];图书与情报;2001年03期
2 张洪元;知识组织智能化与目录学在当代的发展[J];大学图书情报学刊;2001年02期
3 任瑞娟,李洪建;中文WWW搜索引擎比较研究[J];大学图书馆学报;1999年05期
4 刘素清;IFLA书目记录功能需求(FRBR)初探[J];大学图书馆学报;2004年06期
5 孙瑾;网络信息资源评价研究综述[J];大学图书馆学报;2005年01期
6 张久珍,段明莲,沈正华;国外视音频信息元数据研究文献综述[J];大学图书馆学报;2005年01期
7 韩松涛;;网上学科导航的目录学特性初探[J];大学图书馆学报;2006年04期
8 李洁宁,黄国富;网络环境下的虚拟学习系统及评测方法[J];广西广播电视大学学报;2003年04期
9 张强弓,喻国宝,廖湖声,隋树林;一种元搜索引擎的查询结果处理模型[J];华南理工大学学报(自然科学版);2004年S1期
10 文坤梅,卢正鼎,陈莉,邓曦;元搜索引擎中检索结果排序的优化方法[J];华中科技大学学报(自然科学版);2003年03期
中国硕士学位论文全文数据库 前1条
1 刘海峰;运动估值快速匹配算法的研究[D];西安电子科技大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 夏立新;运用计算机情报检索理论和方法 优化搜索引擎搜索性能[J];情报杂志;2001年12期
2 姚晓锋;;搜索引擎与OPAC系统检索功能的比较研究[J];嘉兴学院学报;2010年06期
3 彭敏;互联网文献资源的索取[J];现代情报;2005年07期
4 冯峰;;网络检索工具——搜索引擎发展趋势之探讨[J];现代情报;2006年08期
5 廖大容;;浅析网络信息检索的方法——搜索引擎[J];内蒙古科技与经济;2009年18期
6 李志;;搜索引擎的缺陷及其完善[J];现代情报;2007年01期
7 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期
8 马红;;搜索引擎的评价体系研究[J];农业图书情报学刊;2008年02期
9 张军,陈益君;搜索引擎的功能及其局限性探讨[J];情报科学;2001年05期
10 刘永武;AltaVista的检索功能[J];现代情报;2002年01期
中国重要会议论文全文数据库 前10条
1 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
2 贾彦国;李培德;;Web检索结果聚类算法的改进[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
3 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
4 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 刘红军;杨红俊;;如何高效地利用互联网搜集情报资源[A];四川省电子学会情报专业委员会学术交流会论文集[C];2006年
8 陈杰;;应用智能搜索 实现数据挖掘[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(上篇)[C];2009年
9 王灿辉;张敏;马少平;;Web作弊与反作弊技术综述[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 实习生 康晨;网络没有唯一:国内中文搜索引擎之比较[N];中国消费者报;2005年
2 李一鑫;搜索排名的红与黑[N];财经时报;2007年
3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
4 本报记者 陈昌成;陈沛:未来的搜索会更加精确[N];中国企业报;2010年
5 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
6 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
7 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
8 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
9 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
10 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
中国博士学位论文全文数据库 前10条
1 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
8 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
3 王军;中文搜索引擎的设计与实现[D];华中科技大学;2004年
4 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
5 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
6 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
9 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
10 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026