收藏本站
《江西师范大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于聚类分析的搜索引擎自动性能评价研究

吴世勇  
【摘要】:随着互联网的快速普及,通过网络共享的信息资源正以指数级的速度递增。要从众多的网页中找到我们需要的信息,无疑像大海捞针一样困难,搜索引擎技术就是为了帮助人们快速地找到所需的信息。而搜索引擎的检索性能评价作为信息检索研究中的核心课题之一,客观可靠的检索性能评价方式是必须考虑和设计的内容。 传统的搜索引擎性能评价方法需要人工标注标准答案集,需花费了大量的人力物力,并且评价结果依赖人工标注的准确性,效率较低。基于聚类分析的思路,提出了一种搜索引擎性能评价指标和自动进行搜索引擎性能评价的方法,此方法能自动计算信息类查询的覆盖范围,并根据其覆盖范围对检索结果进行聚类,通过评估函数实现检索性能的自动评价,并对如何利用类间距和类内距两个指标来定义合适的评估函数进行了分析。实验结果表明,基于聚类指标的评价方法与人工标注的评价方法的评价结果是相一致的。 具体来说,本文的工作主要包括以下几点: 1 )在大规模日志分析的网络搜索引擎用户行为研究的基础上,对Sogou实验室提供的查询日志进行分析,提取了查询日志中的信息类查询并提出了计算查询覆盖度的方法; 2)使用不同的搜索引擎(谷歌、百度、Bing)对提取出来的信息类查询进行检索,运用一些网页抓取器将检索返回的结果网页下载保存进行预处理; 3)构建了一个完整的检索系统评价实验平台,对检索结果进行聚类分析,通过类内距和类间距等聚类指标定义不同的评估函数对检索性能进行评价; 4)使用抽样方法进行人工标注,用传统的评价方法对检索性能进行评价,比较分析两种评价方法的优劣,完成多种评价函数的比较实验。
【学位授予单位】:江西师范大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

知网文化
【参考文献】
中国期刊全文数据库 前9条
1 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期
2 郎皓;王斌;Gareth Jones;李锦涛;丁凡;刘宜轩;;Query Performance Prediction for Information Retrieval Based on Covering Topic Score[J];Journal of Computer Science & Technology;2008年04期
3 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
4 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
5 李静静;闫宏飞;;中文网页信息检索测试集的构建、分析及应用[J];中文信息学报;2008年01期
6 张森;王斌;;Web检索查询意图分类技术综述[J];中文信息学报;2008年04期
7 吕学强,赖治国,孙斌,俞士汶;检索主题难易度评价[J];清华大学学报(自然科学版);2005年S1期
8 郎皓;王斌;李锦涛;丁凡;;文本检索的查询性能预测[J];软件学报;2008年02期
9 刘奕群;岑荣伟;张敏;茹立云;马少平;;基于用户行为分析的搜索引擎自动性能评价[J];软件学报;2008年11期
中国博士学位论文全文数据库 前1条
1 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前4条
1 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
2 张杰;搜索引擎技术的研究[D];西安理工大学;2006年
3 陶红亮;双向聚类迭代的协同过滤推荐算法[D];江西师范大学;2007年
4 方旭;基于链接相似度的网页排序算法研究[D];南京理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 王建冬;王继民;;基于日志挖掘的高校用户期刊数据库检索行为研究[J];北京大学学报(自然科学版);2012年01期
2 周翔;;基于Websphinx网络爬虫的研究与改进[J];电脑知识与技术;2008年28期
3 高玉良;张济强;白瑶;;基于Lucene的多索引搜索的研究与应用[J];电脑知识与技术;2012年07期
4 徐静;;图像搜索引擎的进步与应用现状分析[J];电子商务;2011年04期
5 徐超;周一民;沈磊;;一种面向隐含主题的上下文树核[J];电子与信息学报;2010年11期
6 肖卓磊;;搜索引擎作弊及反作弊技术探究[J];阜阳师范学院学报(自然科学版);2011年04期
7 黄家裕;刘连芳;;基于多质心的不良文本快速过滤方法[J];广西科学院学报;2010年04期
8 罗文兵;吴润秀;王明文;朱莹婷;熊超;;基于结果聚类分析的个性化推荐模型[J];广西师范大学学报(自然科学版);2010年01期
9 付涛;戴玉刚;周登;;链接分析在主题信息检索系统中的应用[J];电脑与电信;2009年01期
10 曾文;;网络化数字化时代主题词表自动构建技术的探索与实践[J];国家图书馆学刊;2012年04期
中国重要会议论文全文数据库 前10条
1 向继;荆继武;高能;;一种自动搜索阈值的中文文本层次聚类方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
2 曾依灵;许洪波;白硕;;改进的OPTICS算法及其在文本聚类中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
6 张磊;李亚楠;王斌;李鹏;蒋在帆;;网页搜索引擎查询日志的session划分研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 刘之涛;陈清才;孟宪军;王晓龙;;基于特征短语的网页在线聚类方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 王晓春;杨沐昀;李生;赵铁军;张志涛;;中文搜索引擎日志中查询分析的研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 王倩;刘奕群;马少平;茹立云;;面向用户互联网访问日志的异常点击分析[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
2 谢超;自适应地图可视化关键技术研究[D];解放军信息工程大学;2009年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
5 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
6 刘荣辉;多阶段自适应差分进化算法及应用研究[D];东华大学;2012年
7 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
8 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
9 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
10 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
2 张琪;网络舆论被主流媒体引导的必要性和可行性研究[D];上海外国语大学;2010年
3 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
4 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
5 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
6 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
7 许明敏;基于维基百科和web共现分析的概念关系网构建系统研究与实现[D];华东师范大学;2011年
8 宋健;基于主题挖掘和时间窗口划分的兴趣推荐技术研究[D];华东师范大学;2011年
9 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
10 奚杰;基于WEB日志的用户行为分析与挖掘[D];东华大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
2 景丽萍,黄厚宽,石洪波;用于文本挖掘的特征选择方法TFIDF及其改进[J];广西师范大学学报(自然科学版);2003年01期
3 朱明泉;张智君;任衍具;;互联网信息搜索用户行为模型的探索性研究[J];浙江大学学报(理学版);2006年04期
4 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
5 闫宏飞,李晓明;关于中国Web的大小、形状和结构[J];计算机研究与发展;2002年08期
6 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
7 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期
8 周军锋,汤显,郭景峰;一种优化的协同过滤推荐算法[J];计算机研究与发展;2004年10期
9 丁国栋;白硕;王斌;;文本检索的统计语言建模方法综述[J];计算机研究与发展;2006年05期
10 邢春晓;高凤荣;战思南;周立柱;;适应用户兴趣变化的协同过滤推荐算法[J];计算机研究与发展;2007年02期
中国博士学位论文全文数据库 前2条
1 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
2 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前9条
1 余晨;面向主题的WWW信息挖掘及实验系统TWIMS[D];中国科学院研究生院(软件研究所);2002年
2 张利军;数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D];西北工业大学;2003年
3 张涛;网络蜘蛛在智能搜索引擎中的设计与实现[D];兰州理工大学;2003年
4 苏林萍;基于数据挖掘技术的电子商务模式研究[D];华北电力大学(北京);2003年
5 方兰;基于局域网的信息推送系统[D];江西师范大学;2004年
6 王莉红;电子商务环境下协同过滤推荐方法的应用分析与研究[D];上海师范大学;2005年
7 左家莉;基于Markov网络的信息检索模型[D];江西师范大学;2005年
8 刘赫;一个基于聚类算法的推荐系统的设计与实现[D];吉林大学;2005年
9 边小勇;面向电子商务的Web数据挖掘技术的研究[D];武汉科技大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 胡琼;基于WWW的全文检索系统检索性能探讨[J];情报科学;2001年06期
2 张琪玉;全文检索系统的检索性能[J];江西图书馆学刊;2004年03期
3 夏立新;运用计算机情报检索理论和方法 优化搜索引擎搜索性能[J];情报杂志;2001年12期
4 王国金,康耀红;基于布尔检索策略的问答系统性能研究[J];科技广场;2005年10期
5 许敏;张永生;;3维模型检索的特征提取技术分析[J];测绘科学技术学报;2007年S1期
6 林晶;;全文检索模型的检索性能研究[J];电脑知识与技术;2010年04期
7 刘丽;;元搜索引擎检索性能分析[J];情报探索;2011年04期
8 王士强,龚忠武,陈次白;英语自动标引的理论与实践[J];江苏图书馆学报;1996年06期
9 荣毅虹,梁战平,荣涵锐;Web检索工具性能效果比较研究[J];情报科学;2001年01期
10 夏立新;情报检索的理论和方法在改善搜索引擎搜索性能中的应用[J];情报科学;2001年07期
中国重要会议论文全文数据库 前10条
1 郭瑞杰;程学旗;许洪波;王斌;丁国栋;;一种基于动态平衡树的在线索引快速构建方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 周梁;高鹏;丁鹏;徐波;;语音识别准确率与检索性能的关联性研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 胡斌;费耀平;李敏;;基于同心球壳划分的三维模型检索[A];第十四届全国图象图形学学术会议论文集[C];2008年
4 王秉卿;黄萱菁;;基于线性模型的查询扩展方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 黄鑫;张世佳;汪国平;王衡;;基于主色匹配的图像检索方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
6 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 王灿辉;茹立云;张敏;马少平;;基于伪反馈与分类的文本检索[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 胡熠;陆汝占;刘慧;;面向信息检索的概念关系自动构建[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 丁凡;王斌;白硕;刘宜轩;李亚楠;;文本检索中句法信息的有效利用研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 黄名选;严小卫;张师超;;基于完全加权关联规则挖掘的信息检索模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前1条
1 JunX_Less、和剑;简单解析WMI[N];电脑报;2004年
中国博士学位论文全文数据库 前10条
1 曲怀敬;Contourlet变换在纹理图像检索和医学图像分割中的应用研究[D];山东大学;2009年
2 潘翔;三维模型形状分析和检索[D];浙江大学;2005年
3 许存禄;图像纹理分析的新方法及其应用[D];复旦大学;2005年
4 郑铁然;基于音节网格的汉语语音文档检索方法研究[D];哈尔滨工业大学;2008年
5 崔江涛;高维索引技术中向量近似方法研究[D];西安电子科技大学;2005年
6 王斌;形状分析的新方法及其应用[D];复旦大学;2006年
7 蔡柯柯;基于查询特征上下文的检索模型研究[D];浙江大学;2007年
8 柳伟;三维模型特征提取与检索[D];上海交通大学;2008年
9 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年
10 刘广海;基于彩色基元特征的图像检索[D];南京理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
2 王先武;基于特征权重自适应调整的CBIR算法[D];吉林大学;2005年
3 胡斌;基于内容的三维模型检索[D];中南大学;2008年
4 汤家兴;网络视频监控系统存储子系统软件设计[D];浙江大学;2013年
5 胡珊;图像检索中基于SVM的相关反馈技术研究[D];西北工业大学;2007年
6 沈阳城;基于形状的植物叶子图像检索与聚类研究[D];厦门大学;2006年
7 黄名选;基于完全加权关联规则挖掘的查询扩展研究[D];广西师范大学;2007年
8 顾春花;基于Contourlet变换的SAR图像检索系统的研究与实现[D];南京航空航天大学;2007年
9 柳青;基于形状的图形检索系统及其在教育中的应用研究[D];山东师范大学;2008年
10 高珊;信息检索中的查询扩展及相关技术研究[D];华中师范大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026