收藏本站
《江西财经大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

信息检索中Markov网络图模型研究

左家莉  
【摘要】:随着因特网的快速发展和全球化进程的加快,互联网的信息资源呈爆炸式的增长。大规模信息的出现改变了传统的知识获取方式,使得互联网成为了人们获取知识的主要来源之一。如何在这些大量、异质、非结构化的海量信息资源中,快速有效地发掘其中蕴含的具有巨大潜在价值的有用信息,已成为当前需要迫切解决的重要问题。而信息检索则是应对这种挑战的关键技术,对于人们有效利用网络信息起着至关重要的作用,在最近二十年的时间里得到了众多的关注和长足的发展。 传统的信息检索模型已得到了广泛的应用,并且取得了极大的成功。但目前的信息检索研究仍然面临诸多困境,缺乏有效的解决办法。面对伴随着网络、计算机存储和运算设备日新月异的发展而日益庞大的网络信息资源,人们对信息检索技术的要求也日益提高,探索更为有效、性能更好的信息检索模型必将是研究的热点。 我们以随机过程理论为基础,将图模型应用于信息检索领域,区别于传统的信息检索建模方式,借助于Markov网络的表达能力和学习机制对数据集中的相关性信息进行建模,在此基础上构造文档模型,在统一框架下实现通用的信息检索模型和文本分类模型。本文的创新工作主要有以下几个方面: (1)基于Markov网络表示的信息检索模型的研究 信息检索中查询和文档相关的度量归根到底还是以词为单位,因此,词在检索中的重要性度量对检索的性能至关重要。但大多数模型在建模时,假定了词的重要性不依赖于查询,且词与词之间被认为是独立的,这使得检索的性能受到了极大的影响。此外,大部分信息检索模型都是基于查询这一端,有相当数量的工作对查询进行分析并提出了诸如查询扩展、相关性反馈等方法。但是,仅仅对查询进行分析是不够的,信息检索的目标是找到和查询相关的文档,这需要同时对文档进行分析以获得更好的文档模型并用于信息检索。 我们针对上述问题,利用Markov网络对词之间的相关性信息进行建模,构造了基于Markov网络表示的信息检索模型,探索相关性信息对信息检索模型性能的影响。在模型具体实现时,根据对Markov网络结构分析的程度,定义信息检索模型的构造规则,并遵循这组规则进行建模。所构造的模型具有很强的表达能力,首先,模型可以表示相关性信息,能获得更好的文档模型,并使得相关性信息和检索模型在统一的框架下建模;其次,模型能为多种特征函数建模,从而适应信息检索任务的具体特性。实验结果表明,基于Markov网络表示的信息检索模型可有效提高检索的性能。 (2)基于Markov网络表示的查询扩展及相关反馈模型的研究 词在检索中的重要性度量对检索性能有极大的影响,我们因此提出了“词的重要性”的概念。利用Markov网络表示词之间的相关性,使得词的重要性不仅包含了词在检索和查询中的重要性,还包含了词之间的相关性信息,对词的重要性的度量也更为准确。在此基础上,我们构造了基于Markov网络表示的查询扩展模型、文档扩展模型和相关反馈模型。 通过计算词的重要性,选择与查询最为相关的信息对查询进行扩展,在基于Markov网络表示的信息检索模型的基础上对重要的相关信息进行加权,可避免查询扩展模型和相关反馈模型出现“主题漂移”,并保证上述模型的检索性能。实验结果表明,查询扩展模型和相关反馈模型较好地提升了信息检索模型的性能。 (3)基于Markov网络表示的文本分类模型的研究 针对朴素贝叶斯模型和向量空间模型的特征独立性假设,将特征之间的相关性信息引入到文本分类模型中,提出了基于Markov网络的文本分类模型和基于Markov网络表示的文本分类模型。 基于Markov网络的文本分类模型首先为解决朴素贝叶斯模型的先验概率易受到数据集分布的影响这一问题,给出了一种新的先验概率估计方法。其次,利用特征之间的相关性信息修正特征的重要性,将相关性信息加入到文本分类模型中。基于Markov网络表示的文本分类模型,将文档表示为Markov网络,为特征之间的相关性信息建模,并通过计算Markov图之间的距离进行分类。实验结果显示这两种模型均可提高文本分类的性能。
【学位授予单位】:江西财经大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 于兴艳;孔真;;浅析基于web的跨语言信息检索之现状[J];信息通信;2011年04期
2 吴思萍;;高等院校图书馆的个性化服务研究[J];华章;2011年13期
3 王真;刘海燕;;搜索引擎的比较及在网络信息检索中的作用[J];黑龙江科技信息;2011年18期
4 刘姝;;知识可视化在信息检索中的实际应用[J];图书馆杂志;2011年06期
5 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
6 李琦;;本体用于信息检索的研究浅析[J];情报探索;2011年07期
7 顾国庆;周艳;黄江娓;;搜索引擎——图书馆的新工具[J];景德镇高专学报;2011年02期
8 杨永健;;浅议图书馆新型OPAC系统发展趋势——以汇文OPAC系统为例[J];四川图书馆学报;2011年03期
9 俞平;;信息检索中文献漏检误检因素分析[J];情报科学;2011年08期
10 李亚楠;;高校图书馆与大学生素质教育的关系研究[J];现代阅读(教育版);2011年15期
中国重要会议论文全文数据库 前10条
1 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
2 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
3 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
9 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
10 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 刘静一;个人档案信息检索[N];建筑报;2000年
5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
6 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
7 刘立新;信息社会技术前瞻[N];学习时报;2006年
8 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
9 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
10 夏飞平 蒋光君;深圳局:信息检索实现“一点通”[N];中国国门时报;2009年
中国博士学位论文全文数据库 前10条
1 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
2 苏海军;基于Markov转换动态条件相关分析的危机传染研究[D];华中科技大学;2011年
3 唐晓彬;Markov机制转换的状态空间模型及其在我国经济周期分析中的应用研究[D];西南财经大学;2010年
4 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
5 董道国;高维数据索引结构研究[D];复旦大学;2005年
6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
7 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
8 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
9 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
10 张玉成;关于集值映射不变测度的存在性与遍历性[D];吉林大学;2004年
中国硕士学位论文全文数据库 前10条
1 石松;基于Markov团的信息检索扩展模型[D];江西师范大学;2011年
2 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
3 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
4 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
5 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
6 左家莉;基于Markov网络的信息检索模型[D];江西师范大学;2005年
7 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
8 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
9 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
10 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026