收藏本站
《东北大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于潜在语义的个性化搜索关键技术研究

陈冬玲  
【摘要】:随着网络技术的飞速发展,信息爆炸所产生的个人信息疲劳和信息压力使搜索引擎变得越来越重要,搜索引擎已经成为名副其实的信息枢纽和信息门户,是用户获取网络信息的首选工具。然而,在搜索引擎返回的巨大的结果列表中,只有一小部分信息符合用户的偏好,甚至在top K结果中,没有符合用户偏好的信息。面对如此窘境,我们不得不重新审视,究竟如何才能为用户提供符合其偏好的个性化信息? 本文分析其主要原因在于,没有真正理解用户查询背后的潜在语义动机,不清楚用户要做什么,故无法为其提供高质量的个性化服务。 搜索引擎直接面对知识背景及搜索意图各异的用户,因此,不可能有一种普适的查询方式,能弄清楚不同用户输入同一查询词,他们各自的潜在动机分别是什么?他们到底想要得到什么样的信息?例如:用户输入“东北大学”,其可能是想随机了解一些东北大学的普遍信息,也可能是想查询今年的招生政策,还可能是想了解外界对东北大学有些什么评价。由此可见,用户的潜在语义动机理解是个性化搜索的基石,如该环节理解的不够准确,与用户实际需求匹配性不高,那么后续进行的个性化服务工作就有可能误入歧途。在实际查询中,输入“关键词”是用户在搜索中的第一步,代表了用户对于自身的搜索需求的TAG化表述,互联网“全息搜索理论”创始人顺风认为:需要深刻的认识到在传统搜索系统中“关键词”在用户心中产生的过程和搜索输出之间的相互关系,发现在用户搜索动机、搜索前思维量与搜索引擎反馈之间的全息联系,用户输入的“关键词”实际上就是一个将心算出的TAG引入搜索行为的过程,而且此类TAG应该成为最有质量的TAG,因为其中凝聚了搜索用户第一反映的无意识性的内心智慧。搜索引擎只有准确把握用户的搜索动机,才能有的放矢地为其提供高质量的个性化服务。 基于上述分析,本文从用户潜在语义的用户动机分析入手,并以此为主线,对多种个性化服务关键技术进行了研究,主要工作包括以下几个方面: (1)在计算机研究领域内,从哲学、心理学角度剖析用户搜索行为,并从认知学的角度,提出了基于概率潜在语义动机分析的用户行为模型,高度概括了各种具体搜索行为,从抽象的角度去理解用户的搜索行为。该模型的提出为进一步研究个性化搜索提供了新的思路。 (2)在文档潜在语义空间中,应用Zipf分布与概率潜在语义分析算法相结合的方式进行文档潜在主题提取,改善了文档潜在主题提取的质量。 (3)以狄氏先验的有限混合模型理论为基础,提出了高效无监督的网页聚类算法。可以有效克服一般的文本聚类算法无法有效应对的高维性、稀疏性文本,以及文本数据之间的相似性函数定义困难,聚类质量和效率低等不足,改善了聚类效果,提高了捕获用户兴趣潜在主题需求的能力。 (4)提出了一种新的基于用户潜在语义分析的查询扩展技术。即将通用搜索中查询扩展的技术与用户动机挖掘技术相结合,而开发出的一种新的查询扩展技术,解决了搜索引擎由于通用的性质而缺乏面向用户的个性化的信息处理的能力,从了解用户的语义上的搜索动机以及了解认知与心里相互作用的角度出发,从根本上解决了查询过程中的一词多义及多词同义等问题,在个性化搜索过程中有效的进行语义消歧。 (5)针对面向查询的排名算法的不足提出了面向用户的重排名算法。即在原有网页排序算法的基础上,根据用户的兴趣偏好而提出的一种局部优化排序算法,既符合用户的个性化需求,又不影响搜索结果的查全率,尽可能做到其排序结果与用户语义动机相符合。 总之,本文从用户潜在语义动机的理解出发,针对个性化搜索各个环节中的关键技术展开研究,如用户建模技术、查询扩展技术、网页局部优化排序技术、聚类技术等,力求达到用户查询与搜索引擎返回结果的高效匹配。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王丽君,高迎,王锡钢;中文检索系统中查询的扩展[J];小型微型计算机系统;2002年07期
2 杨梁彬;文本检索的潜在语义索引法初探[J];大学图书馆学报;2003年06期
3 王明文,聂建云;基于Dempster-Shafer理论的查询扩展模型(英文)[J];江西师范大学学报(自然科学版);2005年03期
4 章旭;石进;谢立;;基于相似性叙词表的模糊集合模型[J];计算机科学;2008年09期
5 闭剑婷;苏一丹;;基于潜在语义分析的跨语言查询扩展方法[J];计算机工程;2009年10期
6 申丽平;;WordNet在查询扩展中的应用研究[J];科技信息;2009年14期
7 张超盟;李战怀;温宗臣;;局部上下文分析剪枝概念树的查询扩展[J];计算机工程;2009年14期
8 李东园;白宇;蔡东风;;面向中文问答的信息检索系统及评测[J];沈阳航空工业学院学报;2009年03期
9 王会进,陈超华,李清;基于动态知识库搜索引擎的技术[J];暨南大学学报;2004年01期
10 牟力科;张蕾;张晓孪;;基于概念图的用户兴趣查询扩展模型的研究[J];计算机工程与应用;2008年06期
11 陈晓金;王兵;;信息检索扩展技术研究[J];图书情报工作;2008年12期
12 李小琳;陆汝占;;基于日志挖掘的查询概念图扩展[J];计算机应用与软件;2010年03期
13 吴丹;何大庆;王惠临;;基于伪相关反馈的跨语言查询扩展[J];情报学报;2010年02期
14 徐建民;刘清江;;基于同义词关系的局部查询扩展[J];郑州大学学报(理学版);2010年01期
15 吴启明;;基于潜在语义的双视图Web社区集成算法[J];计算机工程;2010年13期
16 冯兰萍,张继国;基于本体的中文信息检索模型[J];河海大学常州分校学报;2004年04期
17 陈宇;陈治平;;基于混沌神经网络模型的查询扩展[J];计算机应用;2007年08期
18 聂卉;;基于本体的查询扩展与规范[J];现代图书情报技术;2007年03期
19 黄名选;陈燕红;张师超;;基于关联规则挖掘的查询扩展模型研究[J];现代图书情报技术;2007年10期
20 陈晓金;王兵;;智能信息检索扩展方法研究[J];图书情报知识;2008年04期
中国重要会议论文全文数据库 前10条
1 盛俊;王明文;余俊英;;一种基于潜在语义的Markov网络信息检索模型[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 刘振鹿;王大玲;冯时;张一飞;方东昊;;一种基于LDA的潜在语义区划分及Web文档聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
3 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年
5 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
6 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 马云龙;林鸿飞;;基于权重标准化SimRank方法的查询扩展技术研究[A];第六届全国信息检索学术会议论文集[C];2010年
9 周斌;刘茂福;陈建勋;;IR4QA系统中基于维基百科的查询扩展[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
7 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
8 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
9 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
2 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
3 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
4 曾璞;面向语义提取的图像分类关键技术研究[D];国防科学技术大学;2009年
5 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
6 江悦;场景图像内容表述和分类研究[D];国防科学技术大学;2010年
7 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
8 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
9 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
10 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
2 熊超;基于潜在语义对偶空间的跨语言文本分类研究[D];江西师范大学;2010年
3 刘静;基于CORBA/IIOP的MIME邮件过滤器的研究与设计[D];华北电力大学(河北);2004年
4 曾雪强;潜在语义分类模型的研究[D];江西师范大学;2005年
5 赵春辉;基于关联规则挖掘的查询扩展[D];河南大学;2011年
6 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
7 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
8 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
9 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年
10 盛俊;潜在语义的Markov网络检索模型的研究[D];江西师范大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978