收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

上下文相关的查询推荐算法研究

胡航博  
【摘要】: 随着互联网的快速发展,搜索已成为当前最重要的网络基础应用之一。但是,目前的搜索结果并不能让人足够满意。对搜索引擎来说,如何通过用户提交的查询关键字,返回满足用户需求的搜索结果,是判断搜索性能的关键指标。目前搜索引擎公司和研究人员通过多种方式试图理解用户的搜索目的,生成查询推荐是满足用户意图中很重要的一环。在实际应用中,查询推荐表现为搜索引擎提供的“相关搜索”。 传统的生成查询推荐的方法主要通过语义分析、文档内容分析、锚文本研究来产生推荐;近期的方法主要是通过挖掘搜索日志来生成查询推荐。一是利用在同一个session中邻近的或同时发生的查询作为彼此的推荐。这种方法能够有效的提供有意义的查询推荐,但仅考察用户刚提交的查询,没有充分的考虑上下文序列。另一种是上下文相关方法,通过预测后缀树模型来生成查询推荐,但在查询session划分方面存在粒度过大的问题。 提高查询推荐的准确性可以提升用户的搜索体验,在个性化搜索、提高用户忠诚度、精准广告投放等方面有很广应用前景。本文具体做了以下方面的工作: 1. Session划分研究。为了生成查询推荐,首先需要对搜索日志中的session进行划分。有两个问题需要解决:一是选取划分方法,这决定了如何自动划分session。本文根据对所采用的搜索日志进行分析,采用了一种时间间隔法。二是在同一个session中,如何利用已经提交的查询,对用户的下一个查询进行判断和预测。 2.改进序列生成模型。VMM模型是N-gram算法的扩展,考虑了用户的上下文信息,也能很好的解决可变长的上下文输入问题。但在VMM模型的建立过程中,预测后缀树的生长率参数ε要根据经验得到。ε值过大,就会丢失上下文信息;ε值过小,就会出现训练集数据过分拟合。本文通过训练多个不同边界的VMM模型,建立了扩展的VMM模型——EVMM。得到更准确的ε值,解决了上下文信息丢失和训练集数据过分拟合的问题。 3.实验验证。生成查询推荐分为训练和测试两步。在训练阶段,对搜索日志的session做出准确的划分,然后生成扩展的序列查询预测模型;在测试阶段,根据输入的序列得到概率最大的前N个查询推荐。 本文改进了查询推荐算法,并在搜索日志上进行比较和实验验证。结果表明,本算法能很好的从搜索日志中建立推荐模型,在测试集中具有更好的准确度和覆盖率,并具有较低的时间和空间复杂度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 窦志成;袁晓洁;何松柏;;大规模中文搜索日志中查询重复性分析[J];计算机工程;2008年21期
2 黄日茂;叶琳莉;;基于日志分析的用户搜索行为研究[J];莆田学院学报;2010年02期
3 张校慧;魏增辉;;基于Web日志和聚类的协同过滤推荐算法[J];计算机时代;2011年01期
4 张校慧;谢倩;;Web日志在协同过滤推荐算法中的应用[J];现代计算机(专业版);2011年04期
5 聂晶;;基于用户兴趣实时更新评价信息的远程教学资源智能推荐系统[J];中国科教创新导刊;2009年14期
6 邵华;高凤荣;邢春晓;蒋丽华;;基于VSM的分层网页推荐算法[J];计算机科学;2006年11期
7 苏一丹;王育才;顾新一;;基于独特型人工免疫网络的并行推荐算法的研究[J];计算机应用;2008年05期
8 李聪;梁昌勇;董珂;;基于项目类别相似性的协同过滤推荐算法[J];合肥工业大学学报(自然科学版);2008年03期
9 杨艳;;数字图书馆中兴趣度推荐算法[J];哈尔滨工程大学学报;2009年06期
10 熊忠阳;张凤娟;张玉芳;;基于粒子群优化的项聚类推荐算法[J];计算机工程;2009年23期
11 周珊丹;周兴社;王海鹏;倪红波;张桂英;苗强;;智能博物馆环境下的个性化推荐算法[J];计算机工程与应用;2010年19期
12 张恺;秦亮曦;宁朝波;李文阁;;改进评价估计的混合推荐算法研究[J];微计算机信息;2010年36期
13 赵智;时兵;;改进的个性化推荐算法[J];长春大学学报;2005年06期
14 李涛;王建东;叶飞跃;冯新宇;张有东;;一种基于用户聚类的协同过滤推荐算法[J];系统工程与电子技术;2007年07期
15 连瑞梅;;电子商务中Web页面个性化推荐系统的架构[J];中国管理信息化(综合版);2007年09期
16 高滢;齐红;刘杰;刘大有;;结合似然关系模型和用户等级的协同过滤推荐算法[J];计算机研究与发展;2008年09期
17 李慧;李存华;王霞;;一种新颖的个性化视频搜索排名算法[J];南京师范大学学报(工程技术版);2008年04期
18 李聪;梁昌勇;;基于属性值偏好矩阵的协同过滤推荐算法[J];情报学报;2008年06期
19 张晓云;李慧;王霞;;基于视觉信息的个性化图像搜索排名技术[J];黑龙江科技信息;2009年31期
20 赵娟;;个性化的自主学习模型研究[J];计算机教育;2010年05期
中国重要会议论文全文数据库 前10条
1 许晟;李亚楠;王斌;吴丽辉;;基于加权SimRank的中文查询推荐研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 张志涛;杨沐昀;李生;齐浩亮;宋超;;搜索引擎日志分析:协同推荐还是个性化检索[A];第五届全国信息检索学术会议论文集[C];2009年
3 王韬丞;罗喜军;杜小勇;;基于层次的推荐:一种新的个性化推荐算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
4 梁莘燊;刘莹;;基于效能的学术资源推荐算法研究[A];第六届(2011)中国管理学年会——信息管理分会场论文集[C];2011年
5 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 高凤荣;杜小勇;王珊;;数字图书馆环境下一种基于语义分类的个性化推荐算法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
7 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
8 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
中国博士学位论文全文数据库 前10条
1 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 贾春晓;基于复杂网络的推荐算法和合作行为研究[D];中国科学技术大学;2011年
4 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
5 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
6 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
7 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
8 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
9 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
中国硕士学位论文全文数据库 前10条
1 胡航博;上下文相关的查询推荐算法研究[D];河南大学;2010年
2 代沁;电子商务中基于消费心理的个性化推荐方法研究[D];沈阳航空工业学院;2010年
3 封素石;分布式协同过滤推荐算法研究[D];燕山大学;2010年
4 鲜学丰;基于Web使用挖掘的个性化推荐服务研究[D];河海大学;2006年
5 何克勤;基于标签的推荐系统模型及算法研究[D];华东师范大学;2011年
6 李有超;基于项目属性与偏爱比较的协同过滤推荐算法研究[D];燕山大学;2010年
7 袁先虎;基于混合用户模型的协同过滤推荐算法研究[D];重庆大学;2010年
8 刘亭;隐私保持协同过滤推荐算法研究[D];燕山大学;2010年
9 汪永强;社会化网络中的推荐算法及其应用[D];上海交通大学;2012年
10 刘辉;搜索引擎联邦算法设计与系统实现[D];清华大学;2004年
中国重要报纸全文数据库 前10条
1 记者 王夕;网络也会“读心术”[N];北京科技报;2011年
2 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
3 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
4 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
5 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
6 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
7 李一鑫;搜索排名的红与黑[N];财经时报;2007年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978