收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于大规模搜索日志挖掘的上下文感知搜索研究

曹欢欢  
【摘要】: 近年来,搜索引擎已经成为Web用户主要的信息检索工具。但因为用户的查询词往往较短并且包含歧义,有效的理解用户的信息需求仍然是一个未解决的问题。上下文感知搜索技术是一种新颖的改进现有搜索技术的途径。这里的上下文特指查询会话上下文。这种技术基于一个普遍的现象:同一查询会话内的查询词和点击记录往往具有很强的关联关系。本文对于利用查询会话上下文来帮助理解用户信息需求的问题进行了系统的研究,其研究成果可以广泛用于改进各种搜索服务。 首先,本文提出了一种新的上下文感知的查询建议方法。查询建议在改善搜索引擎可用性上扮演着重要角色。尽管近年来对查询建议的研究较多,但这些方法都不是上下文感知的。也就是说,它们都没有考虑把刚刚提交的一些查询词作为上下文。本文提出的方法包含两个步骤。在离线步骤中,为了解决数据系稀疏性的问题,通过查询词聚类,查询词被归纳为查询概念。接着,该方法从查询会话数据中建立一棵查询概念序列后缀树。这就是离线的查询建议模型。在在线步骤中,通过将查询词序列映射为查询概念序列,该方法可以捕获用户的查询上下文。通过在查询概念序列后缀树中寻找映射得到的查询概念序列,该方法提供给用户上下文感知的查询建议。本文在一个包含18亿查询词,26亿点击记录和8.4亿查询会话的大规模搜索引擎日志上测试了该方法。结果表明这种新方法在覆盖率和查询建议的质量上都好于两种基准方法。 其次,本文提出了一种上下文感知的查询词分类方法。Web查询词分类目前已经被广泛研究。先前大多数算法只对单个的查询词进行分类而不考虑查询上下文。但是,由于查询词通常很短并有歧义,在不给定上下文信息的情况下,其真实搜索意图是不确定的。本文利用条件随机场(CRF)模型把上下文信息引入查询词分类问题当中。本文还在真实数据上作了全面的实验来验证此方法的效率和效果。实验结果显示此方法在F1评分下性能比现有的基准方法提高了52%。 最后,本文提出了一种上下文感知的网页排序方法。网页排序是搜索引擎的核心技术之一。上下文感知的排序可能显著的改进网页排序。为了捕获查询上下文,本文从查询会话数据中学习出一个可变长度的隐马尔科夫模型。尽管该数学模型非常直观,而且涉及的算法均已被广泛研究,但在如此大规模的搜索日志数据上进行训练仍然带来了很多新的挑战。本文提出了一种可变长度隐马尔科夫模型的参数初始化方法,可以大大减少需要学习的参数数量。本文还在map-reduce分布式计算框架下提出了模型的分布式学习算法。该方法在一个真实搜索引擎上进行了实验。实验结果表明这种方法具有较好的效果和较高的效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 肖启莉,柴本成,杨庆;《人工智能》教学中的几点思考[J];计算机与数字工程;2005年07期
2 刘俊熙;搜索引擎关键技术在检索层面上的分析理解[J];图书馆学刊;2005年05期
3 张奔;;语音搜索时代来临[J];中国新通信;2006年13期
4 刘俊熙;;搜索引擎对局域网的搜索(“侵入”)及防范策略[J];现代情报;2007年07期
5 武佳;;搜索微软[J];互联网周刊;2009年11期
6 朱恒亮;蒋建民;肖颖;;基于搜索的信息管理系统[J];计算机与数字工程;2009年09期
7 徐心和;;从计算机博弈到机器人足球——人工智能长期而持续的挑战[J];机器人技术与应用;2010年01期
8 ;对未来Google搜索技术的深度分析[J];中国传媒科技;2010年07期
9 张述冠;开复去意决,诉讼难回天[J];中国计算机用户;2005年30期
10 ;捍卫商用搜索市场 Autonomy以“智”取胜[J];计算机与网络;2006年06期
11 王炯;;探访图片搜索[J];互联网天地;2007年09期
12 袁楚;;用生活搜索改变生活——专访爱帮网CEO刘建国[J];互联网天地;2008年10期
13 冯茜茜;;“谷歌杀手”柳暗未见花明[J];信息方略;2008年18期
14 余健仪;;搜索,无限膨胀的蛋糕[J];电脑与电信;2009年03期
15 吴德慧;;新型网络信息查找技术——对称式搜索[J];电脑采购周刊;2002年07期
16 崔轶;;IT产业的新圈地运动Google VS Microsoft[J];程序员;2005年10期
17 杨军;张波;;机器博弈游戏在单片机上实现[J];计算机应用;2006年02期
18 陈淑娟;;奇虎之“奇”[J];电子商务世界;2006年04期
19 吴红梅;;电子商务模式下营销方法的变化[J];科技信息(科学教研);2007年23期
20 李志宇;;Google全方位平台提升中文搜索体验[J];通信世界;2008年45期
中国重要会议论文全文数据库 前10条
1 吴炜;梁昆;李瑞轩;辜希武;卢正鼎;;一种基于主题相关度的网页排序算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
2 王知津;韩正彪;周鹏;;网络信息移动搜索的结构框架与技术机理探讨[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
3 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 闫泼;马军;陈竹敏;;面向主题的网页排序算法研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 魏美勇;张国良;;视频共享服务应用技术研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
6 王洪俊;赖志国;施水才;肖诗斌;;基于查询日志的查询建议挖掘[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
8 陆宇旻;杨柳;;JXTA CMS搜索技术的研究[A];广西计算机学会——2004年学术年会论文集[C];2004年
9 叶伟芳;;基于P2P的搜索技术和方法研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 陆宇旻;杨柳;;JXTA CMS搜索技术的研究[A];广西计算机学会2004年学术年会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 曹欢欢;基于大规模搜索日志挖掘的上下文感知搜索研究[D];中国科学技术大学;2009年
2 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
3 王斌;面向关系数据库的关键字近似搜索技术研究[D];东北大学;2008年
4 刘玉婷;网页排序中的随机模型及算法[D];北京交通大学;2009年
5 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
6 李东升;基于对等模式的资源定位技术研究[D];国防科学技术大学;2005年
7 李妍峰;时变网络环境下车辆调度问题研究[D];西南交通大学;2008年
8 李锋刚;基于优化案例推理的智能决策技术研究[D];合肥工业大学;2007年
9 王学德;高超声速稀薄气流非结构网格DSMC及并行算法研究[D];南京航空航天大学;2006年
10 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 王新鹏;认知模型的研究和应用[D];兰州理工大学;2007年
2 宋超臣;基于推荐网络的服务搜索技术研究[D];哈尔滨工程大学;2010年
3 冯东庆;基于链接分析的网页排序作弊检测方法研究[D];吉林大学;2011年
4 刘文辉;基于链接结构的网页排序算法研究[D];哈尔滨工程大学;2010年
5 谭磊;一种个性化移动搜索技术的研究[D];湖南大学;2010年
6 刘玉燕;远程教育资源智能检索系统的研究与设计[D];东北师范大学;2004年
7 孙明星;Sphinx站内搜索技术在论坛产品中的应用研究[D];复旦大学;2012年
8 丁士敏;基于Ajax/Lucene的站内搜索技术研究与实现[D];西安电子科技大学;2008年
9 孙伟;基于P2P技术的网格资源管理模型的研究[D];辽宁工程技术大学;2006年
10 杨国梁;综合数据业务平台中内容管理系统的研究与设计[D];北京邮电大学;2007年
中国重要报纸全文数据库 前10条
1 记者 罗添;周鸿祎重打搜索技术牌[N];北京商报;2006年
2 网络推手 詹鹏 张文杰;揭秘人肉搜索引爆点[N];中国经营报;2008年
3 ;搜索引擎服务的新商机[N];21世纪经济报道;2006年
4 本报记者 陈昌成;陈沛:未来的搜索会更加精确[N];中国企业报;2010年
5 佐岸;巧借网络新特性推广图书[N];中华读书报;2006年
6 本报记者 沈烽;桌面搜索技术挑战传统搜索模式[N];通信信息报;2004年
7 本报记者 贾晶晶;谷歌为何屡屡“聚黄”?[N];中国企业报;2009年
8 顾汶;搜索门户将取代门户搜索?[N];中国高新技术产业导报;2004年
9 毛涛涛;张朝阳:放弃搜索技术很危险[N];北京商报;2007年
10 本报实习记者  周婷;中外群雄逐鹿 移动搜索洗牌在即[N];中国证券报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978