收藏本站
《华东师范大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

上下文感知的Web搜索关键技术研究

江开忠  
【摘要】: 随着Internet的爆炸性增长,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息源,实现了全世界人们信息共享的愿望。但是,也正是由于海量信息所造成的“信息过载”,刺激了对高效的Web信息检索技术的需求。2002年9月在美国麻省理工学院智能信息检索研究中心(CⅡR)召开的未来信息检索挑战的国际会议上,上下文检索(Contextual Retrieval)被一致认为是信息检索的长期挑战。2004年7月和2005年7月又先后两次召开了在上下文中的信息检索(IRⅰX)的国际会议。 在信息检索活动中,无论是信息需求的用户,还是用户所需的信息,都是处于各自的上下文中。一方面,用户处于Task Context、User Context、QueryContext等上下文之中;另一方面,Web信息则处于Author Context、Link Context、Structural Context、Path Context等上下文之中。为了能向用户提供高质量的信息,信息检索模型必须将两方面的上下文有机地结合起来,建立上下文感知(Context-Aware)的信息检索模型。 根据信息检索领域的战略目标以及Web search的现状,本文对上下文检索展开了深入的研究,提出了可以解决用户的信息查询和相似页面搜索的上下文感知的检索模型,并基于该模型主要完成了以下工作: 1)感知或获取用户的查询意图或主题:将用户的查询基于上下文和参考本体获取一个参考本体中的局部子树,该子树反映了用户查询的真实意图或主题。本文给出了获取该子树的一系列相关算法。 2)对主题子树的扩展:基于1)中获得的主题子树,将叶子节点分别基于参考本体中的ISA关系和非ISA关系进行扩展,从而得到一个以用户的查询词为中心的概念图,称为用户的个性化概念图。以个性化概念图中的关键词为特征项来表示Web页面,即Web页面的信息内容限制在该个性化概念图所张的信息子空间中,而个性化概念图中概念之间的度量关系将成为页面链接权重的度量依据。本文给出了这种个性化度量的一系列相关算法。 3)感知Web页面作者的语义信息:Web页面作者是需求信息的诸多上下文之一,页面作者构成的社群网络的主题与页面构成的超链网络的主题具有很强的相关性甚至是同一主题,因此有必要对这个网络进行研究。本文引入“简单文档”的概念,简单文档通过一阶近邻构成平面式的“复合文档”,复合文档构成立体式的数据集,对数据集建立张量模型,通过张量分解,研究社群网络中成员之间的语义相似度。本文给出了这种相似度的一系列相关算法。 4)感知Web页面之间的链接结构上下文:页面通过页面之间的超链接构成复杂的链接网络,从而构成需求信息的链接结构上下文。将1)和2)获得的用户的个性化概念图的拓扑结构应用于链接结构上下文:一方面,以个性化概念图中的概念(关键词)作为特征项将页面表达为向量,特征项的权重类似于TF-IDF的CF-IDF计算;另一方面,链接赋予权重,权重计算的依据是用户概念图中概念之间的个性化语义相似度。通过邻接权重矩阵计算页面的权威度量,从而按照权威度量对页面排序。本文给出了这种排序的一系列相关算法。 显然这种排序随着个性化概念图的变化而变化,有效地克服了“作者欺骗”、“主题漂移”和“千人一面”的问题。 5)感知Web页面之间的链接锚文本对链入页面的主题或语义指示:在4)的带权链接矩阵的基础上,增加链接锚文本作为第三轴或模式,从而建立了数据的张量模型。由于张量在数学理论及算法上还不成熟,本文将张量模型发展为三个矩阵表示的个性化模型,从而有效地利用了在数学理论上十分成熟的矩阵理论及其算法。 本文的研究内容基于作者所参与的上海市科学技术委员会科技攻关项目(GrantNo.055115001)《面向语音服务的志愿者信息推送服务平台》的研究,该项目以2010年上海世博会为应用场景,实现了世博MIA系统。本文提出的算法在系统中得到了验证,结果都显示出它们能有效的解决相关问题,并具有较高的性能。因此,本文的研究成果对于提高网络搜索的准确性具有较大的实用价值。
【学位授予单位】:华东师范大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP393.09

【相似文献】
中国期刊全文数据库 前10条
1 刘晓星;胡畅霞;;WEB中文本信息检索的关键技术研究[J];硅谷;2011年16期
2 徐久成;李晓艳;孙林;;一种基于概率粗糙集模型的图像语义检索方法[J];南京大学学报(自然科学版);2011年04期
3 朱培焱;夏栋梁;;汉英跨语言信息检索研究[J];计算机与现代化;2011年08期
4 史伟;王洪伟;;在线产品评论检索系统研究[J];情报杂志;2011年09期
5 郭贵梅;;我国网络信息检索用户研究综述[J];现代情报;2011年08期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 梅伟;刘惟一;;基于可信度的信息检索模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 邓志鸿;张铭;陈捷;杨冬青;唐世渭;;基于本体的Web信息检索模型初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 马少平;张敏;;信息检索研究:过去三十年中我们走了多远[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 石敏;康耀红;;关于广义向量空间模型中布尔运算的修正[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 沈勇;汤兆石;;基于信息隐藏技术的音频标注与检索[A];第八届全国人机语音通讯学术会议论文集[C];2005年
6 普东航;唐常杰;元昌安;廖勇;张天庆;于中华;;一种基于相邻地址的信息检索模型AAM[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 盛俊;王明文;余俊英;;一种基于潜在语义的Markov网络信息检索模型[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 张玉连;陈琳娜;陈金森;;基于本体的个性化服务用户模型研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
9 吴晨;张全;缪建明;韦向峰;;自然语言语义理解下的信息检索模型[A];第三届学生计算语言学研讨会论文集[C];2006年
10 郭稷;骆卫华;;一种基于索引模型融合的面向问答的信息检索方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 江开忠;上下文感知的Web搜索关键技术研究[D];华东师范大学;2008年
2 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
3 宋峻峰;面向语义Web的领域本体表示、推理、集成及其应用研究[D];国防科学技术大学;2006年
4 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
5 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
6 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
7 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
8 胡志华;基于免疫系统的协同进化机制及其应用研究[D];东华大学;2009年
9 徐建民;基于术语关系的贝叶斯网络信息检索模型扩展研究[D];天津大学;2007年
10 崔金栋;基于本体的网格信息检索模型研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 汪晨;基于本体的信息检索系统研究[D];合肥工业大学;2007年
2 丁志刚;基于类别意图的信息检索模型[D];北京邮电大学;2009年
3 唐俊;基于概念格的个性化信息检索研究[D];西华大学;2006年
4 王程;语义网络环境下的信息检索模式研究[D];黑龙江大学;2006年
5 赵嫣;信息检索中结构化文档相关度计算方法的研究[D];山东大学;2007年
6 刘春泳;中文问答系统中信息检索模型的研究[D];重庆大学;2007年
7 李立;中文信息检索系统研究[D];华中师范大学;2008年
8 贾文杰;基于多Agent的个性化信息检索技术的研究[D];哈尔滨工业大学;2007年
9 顾雅枫;基于用户兴趣模型的信息检索研究[D];兰州大学;2009年
10 赵爽;基于贝叶斯网络的结构化文档检索[D];河北大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026