收藏本站
《中国科学技术大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于大规模搜索日志挖掘的上下文感知搜索研究

曹欢欢  
【摘要】: 近年来,搜索引擎已经成为Web用户主要的信息检索工具。但因为用户的查询词往往较短并且包含歧义,有效的理解用户的信息需求仍然是一个未解决的问题。上下文感知搜索技术是一种新颖的改进现有搜索技术的途径。这里的上下文特指查询会话上下文。这种技术基于一个普遍的现象:同一查询会话内的查询词和点击记录往往具有很强的关联关系。本文对于利用查询会话上下文来帮助理解用户信息需求的问题进行了系统的研究,其研究成果可以广泛用于改进各种搜索服务。 首先,本文提出了一种新的上下文感知的查询建议方法。查询建议在改善搜索引擎可用性上扮演着重要角色。尽管近年来对查询建议的研究较多,但这些方法都不是上下文感知的。也就是说,它们都没有考虑把刚刚提交的一些查询词作为上下文。本文提出的方法包含两个步骤。在离线步骤中,为了解决数据系稀疏性的问题,通过查询词聚类,查询词被归纳为查询概念。接着,该方法从查询会话数据中建立一棵查询概念序列后缀树。这就是离线的查询建议模型。在在线步骤中,通过将查询词序列映射为查询概念序列,该方法可以捕获用户的查询上下文。通过在查询概念序列后缀树中寻找映射得到的查询概念序列,该方法提供给用户上下文感知的查询建议。本文在一个包含18亿查询词,26亿点击记录和8.4亿查询会话的大规模搜索引擎日志上测试了该方法。结果表明这种新方法在覆盖率和查询建议的质量上都好于两种基准方法。 其次,本文提出了一种上下文感知的查询词分类方法。Web查询词分类目前已经被广泛研究。先前大多数算法只对单个的查询词进行分类而不考虑查询上下文。但是,由于查询词通常很短并有歧义,在不给定上下文信息的情况下,其真实搜索意图是不确定的。本文利用条件随机场(CRF)模型把上下文信息引入查询词分类问题当中。本文还在真实数据上作了全面的实验来验证此方法的效率和效果。实验结果显示此方法在F1评分下性能比现有的基准方法提高了52%。 最后,本文提出了一种上下文感知的网页排序方法。网页排序是搜索引擎的核心技术之一。上下文感知的排序可能显著的改进网页排序。为了捕获查询上下文,本文从查询会话数据中学习出一个可变长度的隐马尔科夫模型。尽管该数学模型非常直观,而且涉及的算法均已被广泛研究,但在如此大规模的搜索日志数据上进行训练仍然带来了很多新的挑战。本文提出了一种可变长度隐马尔科夫模型的参数初始化方法,可以大大减少需要学习的参数数量。本文还在map-reduce分布式计算框架下提出了模型的分布式学习算法。该方法在一个真实搜索引擎上进行了实验。实验结果表明这种方法具有较好的效果和较高的效率。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.3

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前2条
1 俞伟平;基于贝叶斯网络的事后审计技术研究与安全审计系统的实现[D];浙江工商大学;2012年
2 肖海鹏;基于Web挖掘的搜索关键词建议研究[D];中南大学;2012年
【同被引文献】
中国期刊全文数据库 前10条
1 魏桂英,郑玄轩;层次聚类方法的CURE算法研究[J];科技和产业;2005年11期
2 李卫疆;赵铁军;王宪刚;;基于上下文的查询扩展[J];计算机研究与发展;2010年02期
3 吴强;梁继民;杨万海;;Web日志挖掘预处理中的用户识别技术[J];计算机科学;2002年04期
4 李大高;程显毅;张冬慧;;基于关联规则与聚类算法的查询扩展算法[J];计算机工程;2009年06期
5 王卫国;徐炜民;;基于潜在语义分析的个性化查询扩展模型[J];计算机工程;2010年21期
6 汪晴;庄卫华;;基于TF-IQF模型的查询建议[J];计算机工程;2010年21期
7 许芳芳;王新伟;;Web文本聚类算法的分析比较[J];计算机时代;2010年10期
8 宫秀军,刘少辉,史忠植;一种增量贝叶斯分类模型[J];计算机学报;2002年06期
9 高能;冯登国;向继;;一种基于数据挖掘的拒绝服务攻击检测技术[J];计算机学报;2006年06期
10 孙琳;王忠民;李鑫;;一种用于Web检索交互的相关主题查询建议方法[J];计算机应用;2006年S2期
中国博士学位论文全文数据库 前9条
1 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
2 张相锋;安全审计与基于审计的入侵检测[D];中国科学院研究生院(软件研究所);2004年
3 王玲;网络服务系统日志安全分析技术研究[D];中国科学院研究生院(计算技术研究所);2006年
4 郭岩;网络日志中用户兴趣的挖掘及利用[D];中国科学院研究生院(计算技术研究所);2004年
5 范敏;基于贝叶斯网络的学习与决策方法研究及应用[D];重庆大学;2008年
6 胡蓉;WEB日志和子空间聚类挖掘算法研究[D];华中科技大学;2008年
7 唐勇;基于网络的攻击特征自动提取技术研究[D];国防科学技术大学;2008年
8 关菁华;基于贝叶斯网数据挖掘若干问题研究[D];吉林大学;2009年
9 朱志国;Web用户使用模式与兴趣挖掘方法研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 李冠广;基于贝叶斯网络的入侵检测[D];大连理工大学;2010年
2 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
3 瞿国忠;查询扩展技术研究[D];华中师范大学;2007年
4 黄名选;基于完全加权关联规则挖掘的查询扩展研究[D];广西师范大学;2007年
5 杨春伟;Web挖掘及其在网络搜索引擎中的应用研究[D];中国石油大学;2007年
6 高珊;信息检索中的查询扩展及相关技术研究[D];华中师范大学;2008年
7 吴雯雯;基于Web的用户访问模式挖掘算法及其应用研究[D];合肥工业大学;2008年
8 王玉伟;面向用户兴趣的web文档聚类研究[D];中国石油大学;2008年
9 马春光;基于用户兴趣的查询扩展算法研究[D];哈尔滨工程大学;2009年
10 陈锐;基于概念图的信息检索查询扩展模型研究与实现[D];西北大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 肖启莉,柴本成,杨庆;《人工智能》教学中的几点思考[J];计算机与数字工程;2005年07期
2 刘俊熙;搜索引擎关键技术在检索层面上的分析理解[J];图书馆学刊;2005年05期
3 张奔;;语音搜索时代来临[J];中国新通信;2006年13期
4 刘俊熙;;搜索引擎对局域网的搜索(“侵入”)及防范策略[J];现代情报;2007年07期
5 武佳;;搜索微软[J];互联网周刊;2009年11期
6 朱恒亮;蒋建民;肖颖;;基于搜索的信息管理系统[J];计算机与数字工程;2009年09期
7 徐心和;;从计算机博弈到机器人足球——人工智能长期而持续的挑战[J];机器人技术与应用;2010年01期
8 ;对未来Google搜索技术的深度分析[J];中国传媒科技;2010年07期
9 张述冠;开复去意决,诉讼难回天[J];中国计算机用户;2005年30期
10 ;捍卫商用搜索市场 Autonomy以“智”取胜[J];计算机与网络;2006年06期
中国重要会议论文全文数据库 前10条
1 吴炜;梁昆;李瑞轩;辜希武;卢正鼎;;一种基于主题相关度的网页排序算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
2 王知津;韩正彪;周鹏;;网络信息移动搜索的结构框架与技术机理探讨[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
3 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 闫泼;马军;陈竹敏;;面向主题的网页排序算法研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 魏美勇;张国良;;视频共享服务应用技术研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
6 王洪俊;赖志国;施水才;肖诗斌;;基于查询日志的查询建议挖掘[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
8 陆宇旻;杨柳;;JXTA CMS搜索技术的研究[A];广西计算机学会——2004年学术年会论文集[C];2004年
9 叶伟芳;;基于P2P的搜索技术和方法研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 陆宇旻;杨柳;;JXTA CMS搜索技术的研究[A];广西计算机学会2004年学术年会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 记者 罗添;周鸿祎重打搜索技术牌[N];北京商报;2006年
2 网络推手 詹鹏 张文杰;揭秘人肉搜索引爆点[N];中国经营报;2008年
3 ;搜索引擎服务的新商机[N];21世纪经济报道;2006年
4 本报记者 陈昌成;陈沛:未来的搜索会更加精确[N];中国企业报;2010年
5 佐岸;巧借网络新特性推广图书[N];中华读书报;2006年
6 本报记者 沈烽;桌面搜索技术挑战传统搜索模式[N];通信信息报;2004年
7 本报记者 贾晶晶;谷歌为何屡屡“聚黄”?[N];中国企业报;2009年
8 顾汶;搜索门户将取代门户搜索?[N];中国高新技术产业导报;2004年
9 毛涛涛;张朝阳:放弃搜索技术很危险[N];北京商报;2007年
10 本报实习记者  周婷;中外群雄逐鹿 移动搜索洗牌在即[N];中国证券报;2006年
中国博士学位论文全文数据库 前10条
1 曹欢欢;基于大规模搜索日志挖掘的上下文感知搜索研究[D];中国科学技术大学;2009年
2 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
3 王斌;面向关系数据库的关键字近似搜索技术研究[D];东北大学;2008年
4 刘玉婷;网页排序中的随机模型及算法[D];北京交通大学;2009年
5 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
6 李东升;基于对等模式的资源定位技术研究[D];国防科学技术大学;2005年
7 李妍峰;时变网络环境下车辆调度问题研究[D];西南交通大学;2008年
8 李锋刚;基于优化案例推理的智能决策技术研究[D];合肥工业大学;2007年
9 王学德;高超声速稀薄气流非结构网格DSMC及并行算法研究[D];南京航空航天大学;2006年
10 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 王新鹏;认知模型的研究和应用[D];兰州理工大学;2007年
2 宋超臣;基于推荐网络的服务搜索技术研究[D];哈尔滨工程大学;2010年
3 冯东庆;基于链接分析的网页排序作弊检测方法研究[D];吉林大学;2011年
4 刘文辉;基于链接结构的网页排序算法研究[D];哈尔滨工程大学;2010年
5 谭磊;一种个性化移动搜索技术的研究[D];湖南大学;2010年
6 刘玉燕;远程教育资源智能检索系统的研究与设计[D];东北师范大学;2004年
7 孙明星;Sphinx站内搜索技术在论坛产品中的应用研究[D];复旦大学;2012年
8 丁士敏;基于Ajax/Lucene的站内搜索技术研究与实现[D];西安电子科技大学;2008年
9 孙伟;基于P2P技术的网格资源管理模型的研究[D];辽宁工程技术大学;2006年
10 杨国梁;综合数据业务平台中内容管理系统的研究与设计[D];北京邮电大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026