收藏本站
《东北大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于潜在语义的个性化搜索关键技术研究

陈冬玲  
【摘要】:随着网络技术的飞速发展,信息爆炸所产生的个人信息疲劳和信息压力使搜索引擎变得越来越重要,搜索引擎已经成为名副其实的信息枢纽和信息门户,是用户获取网络信息的首选工具。然而,在搜索引擎返回的巨大的结果列表中,只有一小部分信息符合用户的偏好,甚至在top K结果中,没有符合用户偏好的信息。面对如此窘境,我们不得不重新审视,究竟如何才能为用户提供符合其偏好的个性化信息? 本文分析其主要原因在于,没有真正理解用户查询背后的潜在语义动机,不清楚用户要做什么,故无法为其提供高质量的个性化服务。 搜索引擎直接面对知识背景及搜索意图各异的用户,因此,不可能有一种普适的查询方式,能弄清楚不同用户输入同一查询词,他们各自的潜在动机分别是什么?他们到底想要得到什么样的信息?例如:用户输入“东北大学”,其可能是想随机了解一些东北大学的普遍信息,也可能是想查询今年的招生政策,还可能是想了解外界对东北大学有些什么评价。由此可见,用户的潜在语义动机理解是个性化搜索的基石,如该环节理解的不够准确,与用户实际需求匹配性不高,那么后续进行的个性化服务工作就有可能误入歧途。在实际查询中,输入“关键词”是用户在搜索中的第一步,代表了用户对于自身的搜索需求的TAG化表述,互联网“全息搜索理论”创始人顺风认为:需要深刻的认识到在传统搜索系统中“关键词”在用户心中产生的过程和搜索输出之间的相互关系,发现在用户搜索动机、搜索前思维量与搜索引擎反馈之间的全息联系,用户输入的“关键词”实际上就是一个将心算出的TAG引入搜索行为的过程,而且此类TAG应该成为最有质量的TAG,因为其中凝聚了搜索用户第一反映的无意识性的内心智慧。搜索引擎只有准确把握用户的搜索动机,才能有的放矢地为其提供高质量的个性化服务。 基于上述分析,本文从用户潜在语义的用户动机分析入手,并以此为主线,对多种个性化服务关键技术进行了研究,主要工作包括以下几个方面: (1)在计算机研究领域内,从哲学、心理学角度剖析用户搜索行为,并从认知学的角度,提出了基于概率潜在语义动机分析的用户行为模型,高度概括了各种具体搜索行为,从抽象的角度去理解用户的搜索行为。该模型的提出为进一步研究个性化搜索提供了新的思路。 (2)在文档潜在语义空间中,应用Zipf分布与概率潜在语义分析算法相结合的方式进行文档潜在主题提取,改善了文档潜在主题提取的质量。 (3)以狄氏先验的有限混合模型理论为基础,提出了高效无监督的网页聚类算法。可以有效克服一般的文本聚类算法无法有效应对的高维性、稀疏性文本,以及文本数据之间的相似性函数定义困难,聚类质量和效率低等不足,改善了聚类效果,提高了捕获用户兴趣潜在主题需求的能力。 (4)提出了一种新的基于用户潜在语义分析的查询扩展技术。即将通用搜索中查询扩展的技术与用户动机挖掘技术相结合,而开发出的一种新的查询扩展技术,解决了搜索引擎由于通用的性质而缺乏面向用户的个性化的信息处理的能力,从了解用户的语义上的搜索动机以及了解认知与心里相互作用的角度出发,从根本上解决了查询过程中的一词多义及多词同义等问题,在个性化搜索过程中有效的进行语义消歧。 (5)针对面向查询的排名算法的不足提出了面向用户的重排名算法。即在原有网页排序算法的基础上,根据用户的兴趣偏好而提出的一种局部优化排序算法,既符合用户的个性化需求,又不影响搜索结果的查全率,尽可能做到其排序结果与用户语义动机相符合。 总之,本文从用户潜在语义动机的理解出发,针对个性化搜索各个环节中的关键技术展开研究,如用户建模技术、查询扩展技术、网页局部优化排序技术、聚类技术等,力求达到用户查询与搜索引擎返回结果的高效匹配。
【学位授予单位】:东北大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.3

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前1条
1 刘振鹿;基于LDA的潜在语义空间分析及Web文档聚类的研究与实现[D];东北大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 黄名选;严小卫;;基于查询语义树的语义查询扩展研究[J];情报理论与实践;2007年06期
2 黄名选;严小卫;张师超;冯平;;关联语义的概念查询扩展模型[J];情报杂志;2007年08期
3 崔航,文继荣,李敏强;基于用户日志的查询扩展统计模型[J];软件学报;2003年09期
4 田萱;杜小勇;李海华;;语义查询扩展中词语-概念相关度的计算[J];软件学报;2008年08期
5 谭绍珍,曲琛;认知过程模型研究述评[J];四川教育学院学报;2004年11期
6 葛园园;精神分析学说与信息用户心理研究[J];图书情报知识;2004年05期
7 黄忠晶;论弗洛伊德学说的哲学和理性本质[J];江南大学学报(人文社会科学版);2003年02期
8 李朋林,胡华清;行为难题的一种解释[J];西北大学学报(哲学社会科学版);1997年04期
9 周建达,鲁志鲲,申继亮,林崇德;教师解决结构不良问题策略的发展研究[J];心理科学;1995年03期
10 罗季;;Monte Carlo EM加速算法[J];应用概率统计;2008年03期
中国博士学位论文全文数据库 前4条
1 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
2 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
3 张树人;从社会性软件、Web2.0到复杂适应信息系统研究[D];中国人民大学;2006年
4 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
中国硕士学位论文全文数据库 前2条
1 黄国景;元搜索引擎个性化搜索的研究与设计[D];苏州大学;2005年
2 李恒;基于认知心理学的科技用户信息搜索行为理论研究[D];南京理工大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 米庆华;石瑛;梁建东;;阿坝师专大学生心理健康现状调查与对策研究[J];阿坝师范高等专科学校学报;2006年04期
2 夏本成;论化学问题解决[J];安徽教育学院学报;2005年03期
3 朱祖林,钱立三,刘盛峰;基于WWW的自主学习环境的构建策略[J];安徽广播电视大学学报;2002年04期
4 荆莉;;探析汉语缩略语的简缩理据[J];安徽农业大学学报(社会科学版);2008年01期
5 刘强;吴新平;李登叶;;大学生诚信体系构建的心理学观照[J];安徽农业大学学报(社会科学版);2009年06期
6 刘颖;现代汉语中几种表示相同比较的句式[J];安徽师范大学学报(人文社会科学版);2000年03期
7 葛明贵;指导语对解决四卡问题影响的实验研究[J];安徽师范大学学报(人文社会科学版);2001年02期
8 徐茗;比字句结果项与比较点的联系[J];安徽师范大学学报(人文社会科学版);2005年02期
9 刘旭东;;论意识形态对外交政策的影响[J];安徽师范大学学报(人文社会科学版);2005年06期
10 周艳;大学生英语成绩的性别差异探究[J];安徽工业大学学报(社会科学版);2005年03期
中国重要会议论文全文数据库 前10条
1 赵伶俐;;审美认知:美学与认知心理学的联姻[A];中华美学学会第七届全国美学大会会议论文集[C];2009年
2 赵力;曾毓敏;邹采荣;吴镇扬;;基于子空间分析的语音信号寂声语声段识别方法[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 陈蕴奇;陈春玲;;认知科学与空间地理信息系统[A];中国测绘学会九届四次理事会暨2008年学术年会论文集[C];2008年
4 杨鹏;;认知心理学视角下的翻译过程[A];福建省首届外事翻译研讨会论文集[C];2007年
5 苏伟;;论口译记忆[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
6 邹晓辉;;优化“语义信息处理”的新方法与实施例——从“一词泛读”到“释义字组”再到“一字精读”[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 余恩秀;冯昀霞;;普通话强化培训实验研究报告[A];第二届全国普通话水平测试学术研讨会论文集[C];2004年
8 曲庆峰;侯文君;;基于任务目标的虚拟驾驶选择性注意分配研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
9 印大双;;论侦查假说的三个支点[A];第十六届全国法律逻辑学术讨论会论文(成就·反思·前瞻——中国法律逻辑三十年)[C];2008年
10 王祎;;多媒体英语公共演讲教师的多层角色——基于认知教育理论视角的探讨[A];全球化中的英语演讲:挑战与创新——首届全国英语演讲教学与研究学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 赵洪朋;优秀散打运动员知觉预测过程认知特征与神经机制研究[D];上海体育学院;2010年
2 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
3 初春华;党的群众工作心理层面的研究[D];南开大学;2010年
4 卢玉卿;文学作品中言外之意的翻译研究[D];南开大学;2010年
5 徐美凤;基于CAS的学术虚拟社区知识共享研究[D];南京大学;2011年
6 高志明;通感研究[D];福建师范大学;2010年
7 郑祥荣;城市家庭体育模式及其形成机制的理论与实证研究[D];福建师范大学;2010年
8 张志奇;北京人民大会堂室内环境艺术研究[D];中南林业科技大学;2007年
9 刘贵;精毛纺织品虚拟加工中的预报与反演模型研究[D];东华大学;2010年
10 江悦;场景图像内容表述和分类研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 史小航;DRM范式下加工水平、呈现时间和注意状态对错误记忆的影响[D];哈尔滨师范大学;2010年
3 宋娜;植物景观空间营造中的人性化设计研究[D];中南林业科技大学;2009年
4 管颖;羽毛球女单运动员第三拍知觉技能及视觉搜索特征的研究[D];上海体育学院;2010年
5 徐璐;乒乓球运动员决策过程认知加工特征的研究[D];上海体育学院;2010年
6 马艳;概念图在高中化学教学设计中的应用[D];辽宁师范大学;2010年
7 胡信奎;道路交通标志中对称结构效应的工效学研究[D];浙江理工大学;2010年
8 娄铮铮;sIB算法在图像无监督分类中的应用研究[D];郑州大学;2010年
9 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
10 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前2条
1 文健;李舟军;;基于Dirichlet分布语言建模的信息检索技术研究[J];计算机工程与科学;2008年11期
2 李朋林,胡华清;行为难题的一种解释[J];西北大学学报(哲学社会科学版);1997年04期
中国硕士学位论文全文数据库 前1条
1 刘磊;基于k-means的自适应聚类算法研究[D];北京邮电大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 崔剑霞,吴艳红,刘艳芳;短时记忆容量的重新思考[J];北京大学学报(自然科学版);2004年04期
3 乔欢;数字图书馆评价研究[J];国家图书馆学刊;2004年03期
4 李源,何清,史忠植;基于概念语义空间的联想检索[J];北京科技大学学报;2001年06期
5 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期
6 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
7 陈泳华;弗洛伊德晚期三大理论述评[J];湖南第一师范学报;2002年01期
8 丁晓青,吴佑寿;模式识别统一熵理论[J];电子学报;1993年08期
9 戴晓军,刘常昱,韩旭,李德毅;数据场在信息表征中的应用[J];复旦学报(自然科学版);2004年05期
10 李德毅;知识表示中的不确定性[J];中国工程科学;2000年10期
中国博士学位论文全文数据库 前1条
1 赵红;生态智慧型企业成长及其仿生研究[D];华中科技大学;2004年
中国硕士学位论文全文数据库 前3条
1 李勇;智能检索中基于本体的个性化用户建模技术及应用[D];国防科学技术大学;2002年
2 吴建材;商业生态系统本质和进化机制的研究[D];西安电子科技大学;2004年
3 罗建利;基于用户兴趣的概念查询扩展研究[D];扬州大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 王丽君,高迎,王锡钢;中文检索系统中查询的扩展[J];小型微型计算机系统;2002年07期
2 杨梁彬;文本检索的潜在语义索引法初探[J];大学图书馆学报;2003年06期
3 王明文,聂建云;基于Dempster-Shafer理论的查询扩展模型(英文)[J];江西师范大学学报(自然科学版);2005年03期
4 章旭;石进;谢立;;基于相似性叙词表的模糊集合模型[J];计算机科学;2008年09期
5 闭剑婷;苏一丹;;基于潜在语义分析的跨语言查询扩展方法[J];计算机工程;2009年10期
6 申丽平;;WordNet在查询扩展中的应用研究[J];科技信息;2009年14期
7 张超盟;李战怀;温宗臣;;局部上下文分析剪枝概念树的查询扩展[J];计算机工程;2009年14期
8 李东园;白宇;蔡东风;;面向中文问答的信息检索系统及评测[J];沈阳航空工业学院学报;2009年03期
9 王会进,陈超华,李清;基于动态知识库搜索引擎的技术[J];暨南大学学报;2004年01期
10 牟力科;张蕾;张晓孪;;基于概念图的用户兴趣查询扩展模型的研究[J];计算机工程与应用;2008年06期
中国重要会议论文全文数据库 前10条
1 盛俊;王明文;余俊英;;一种基于潜在语义的Markov网络信息检索模型[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 刘振鹿;王大玲;冯时;张一飞;方东昊;;一种基于LDA的潜在语义区划分及Web文档聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
3 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年
5 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
6 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 马云龙;林鸿飞;;基于权重标准化SimRank方法的查询扩展技术研究[A];第六届全国信息检索学术会议论文集[C];2010年
9 周斌;刘茂福;陈建勋;;IR4QA系统中基于维基百科的查询扩展[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
7 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
8 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
9 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年
2 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
3 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
4 曾璞;面向语义提取的图像分类关键技术研究[D];国防科学技术大学;2009年
5 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
6 江悦;场景图像内容表述和分类研究[D];国防科学技术大学;2010年
7 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
8 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
9 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
10 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
2 熊超;基于潜在语义对偶空间的跨语言文本分类研究[D];江西师范大学;2010年
3 刘静;基于CORBA/IIOP的MIME邮件过滤器的研究与设计[D];华北电力大学(河北);2004年
4 曾雪强;潜在语义分类模型的研究[D];江西师范大学;2005年
5 赵春辉;基于关联规则挖掘的查询扩展[D];河南大学;2011年
6 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
7 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
8 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
9 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年
10 盛俊;潜在语义的Markov网络检索模型的研究[D];江西师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026