收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于查询日志的查询扩展研究

胡保祥  
【摘要】:如今互联网已经步入人们生活的每一个角落。互联网上的信息量越来越大,增长速度也越来越快。在互联网的海量信息面前,如何从中获取人们所需要的信息已经成为信息检索领域的热点。目前,主流的搜索引擎的查询方式仍然是基于关键字匹配。面对海量信息,仅仅基于关键字匹配的查询方法很难给出用户满意的查询结果,因此查询扩展技术应运而生。目前,查询扩展已经有了一定的发展。本文在分析以往算法不足的基础上,将众包思想与用户查询日志相结合,提出了基于众包思想的查询扩展算法。实验表明,新算法对查询效果有明显的改善。论文的主要工作如下: 首先,本文介绍了查询扩展的研究背景、查询扩展的发展概况并简单描述了本文的研究和工作内容。其次,本文介绍了信息检索与查询扩展相关理论,并且详细研究了目前主流的查询扩展算法并分析其优缺点。再次,本文还简要介绍了众包思想及其实现算法——“最大期望算法(Expectation Maximization,EM)"的原理,并对其进行改进,为众包思想与用户查询日志的结合提供准备。 本文对用户查询日志进行了详尽的统计分析,主要包括用户查询词特征分析、查询过程中的会话特征分析和用户点击分析。这些分析既是查询扩展的原因,也是查询扩展的基础。 本文利用搜狗公司提供的数据集,对其进行了一些预处理后利用Indri搜索引擎建立起了一个与用户查询日志相匹配的简易搜索引擎平台,用于进行实验。 本文提出了基于众包的查询扩展算法。将众包思想引入查询扩展,根据用户查询日志的特点,将用户的查询过程转化为一个众包过程。随后,本文利用改进的EM算法对相关文档进行重排序,并在重排序后的文档中筛选扩展词。本文在自建的搜索平台中进行了实验,实验结果表明,本文提出的算法与一些传统的查询扩展算法相比在P@20的评价标准上对查询效果有明显的改善。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李莉;高庆狮;;一种基于语义单元的查询扩展方法[J];计算机科学;2008年02期
2 李文骏;崔志明;;基于搜索引擎的Deep Web数据源发现技术[J];计算机技术与发展;2008年08期
3 王会进,陈超华,李清;基于动态知识库搜索引擎的技术[J];暨南大学学报;2004年01期
4 牟力科;张蕾;张晓孪;;基于概念图的用户兴趣查询扩展模型的研究[J];计算机工程与应用;2008年06期
5 李小琳;陆汝占;;基于日志挖掘的查询概念图扩展[J];计算机应用与软件;2010年03期
6 邹良群;周春雷;;基于搜索引擎的公开情报自动化搜集模型[J];电脑知识与技术;2008年26期
7 裴飞;洪宇;孙常龙;姚建民;朱巧明;;基于Web的查询扩展[J];电脑知识与技术;2011年06期
8 蒋辉;阳小华;;基于文档与搜索结果上下文的查询扩展方法[J];计算机应用;2009年03期
9 熊桂喜;王开锋;;基于语义的查询扩展研究[J];微计算机信息;2008年30期
10 王丽君,高迎,王锡钢;中文检索系统中查询的扩展[J];小型微型计算机系统;2002年07期
11 王明文,聂建云;基于Dempster-Shafer理论的查询扩展模型(英文)[J];江西师范大学学报(自然科学版);2005年03期
12 章旭;石进;谢立;;基于相似性叙词表的模糊集合模型[J];计算机科学;2008年09期
13 闭剑婷;苏一丹;;基于潜在语义分析的跨语言查询扩展方法[J];计算机工程;2009年10期
14 申丽平;;WordNet在查询扩展中的应用研究[J];科技信息;2009年14期
15 张超盟;李战怀;温宗臣;;局部上下文分析剪枝概念树的查询扩展[J];计算机工程;2009年14期
16 李东园;白宇;蔡东风;;面向中文问答的信息检索系统及评测[J];沈阳航空工业学院学报;2009年03期
17 桑艳艳;刘培刚;李勇;;基于语义计算的查询扩展优化研究[J];情报学报;2007年05期
18 李卫疆;赵铁军;王宪刚;;基于统计机器翻译模型的查询扩展[J];电子与信息学报;2008年03期
19 陈晓金;王兵;;信息检索扩展技术研究[J];图书情报工作;2008年12期
20 陈锐;张蕾;卢春俊;牟力科;;基于概念图的信息检索的查询扩展模型[J];计算机应用;2009年02期
中国重要会议论文全文数据库 前10条
1 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
2 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年
3 马云龙;林鸿飞;;基于权重标准化SimRank方法的查询扩展技术研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 周斌;刘茂福;陈建勋;;IR4QA系统中基于维基百科的查询扩展[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 钟敏娟;万常选;;基于伪反馈的XML查询扩展[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 黄名选;;基于正负关联规则挖掘的局部反馈查询扩展[A];第六届全国信息检索学术会议论文集[C];2010年
8 陈志玮;肖诗斌;施水才;王昕;;一种基于HTML位置信息的查询扩展技术[A];第三届学生计算语言学研讨会论文集[C];2006年
9 郭文;史晓东;陈毅东;;跨语言信息检索中的查询扩展[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 徐小琴;章成志;;Web信息检索中相关词提示技术与评测[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
2 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
3 王俊义;正负相关反馈与查询扩展技术的研究[D];内蒙古大学;2012年
4 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
5 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
6 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
7 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
8 梅翔;语义检索中若干关键问题的研究[D];北京邮电大学;2007年
9 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
10 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
2 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
3 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
4 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
5 赵春辉;基于关联规则挖掘的查询扩展[D];河南大学;2011年
6 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年
7 于水;专利术语知识库的建立与应用[D];沈阳航空工业学院;2010年
8 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
9 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
10 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年
中国重要报纸全文数据库 前10条
1 赵宁;透过关键词把握世界脉搏[N];中国质量报;2006年
2 周文林;搜索引擎进入"战国时代"[N];中国税务报;2005年
3 ;写在市场被瓜分之前[N];中国电脑教育报;2004年
4 ;百度上市后,三思搜索行业[N];中国电脑教育报;2005年
5 王益明;楔形竞争力——搜索引擎之间的战争[N];第一财经日报;2005年
6 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
7 幸玮;搜索引擎大战谁主未来沉浮[N];第一财经日报;2005年
8 霍鑫;搜索引擎进入手机时代[N];中国高新技术产业导报;2005年
9 记者 胡红军 王宇寰 冯欢 本报记者 秦海波;搜索引擎市场将超20亿元[N];经济日报;2005年
10 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978