收藏本站
《北京语言大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于描述复杂性的信息检索理论与若干模型研究

王修力  
【摘要】:我们在文中讨论了几种模型:基于kolmogorov complexity的NID(NCD)理论的几种模型(第二章、第三章),图模型(第四章),简单关联模型(第五章),设计程序进行了实验验证,和经典的向量空间模型做了对比。并且从两个方面力图解决信息检索理论和经验上的ad hoc问题:从普遍理论导出检索模型,用普遍理论解释经验模型。此外,探讨了信息检索结果等价的形式化分析、向量空间模型假设的形式化分析及其前缀复杂性表示。 一,在NCD理论和模型方面做的工作主要有三:信息检索的NCD解释、NCD模型近似实现和试验、经验模型和NCD模型的比较和解释。 1:信息检索的NCD理论(第二章)。我们从算法信息(描述复杂性)的角度讨论了信息检索的NCD理论。NCD从理论方面给出了解决信息检索理论上一直存在的ad hoc问题的途径。由Kolmogorov complexity定义出来的NCD在理论上证明为一切有意义的距离中最优的。如果信息检索必须含有评分和排序,并且将相关度等同于评分函数所得到的评分,依照评分来排序文档,那么,理论上NCD应该是最优的检索模型。但是由于NCD不可计算,因此只提供了一个理论解释,而具体模型则需要我们用各种策略去近似NCD。 2:NCD模型近似实现和试验(第二章、第三章)。2a.NCD模型依照压缩算法的近似实现和试验(第二章)。 ●我们由NCD理论近似得出了两种基于压缩算法的模型。两个模型由NCD理论近似导出,不同于信息检索的模型(信息检索模型一直具有ad hoc问题),并且是揭示了压缩和信息检索相关度之间的关系。就文本的结构算法信息进行了实验。实验的结果表明,压缩率越大,则检索效果越好。而对文本做编码,使得单词能够作为一个单位,或者编码长度一致,检索效果也有了提高。这表明,进一步改进压缩算法,提高压缩率,进而得到更高的检索效果;修改实现压缩算法的程序,使之真正以单词为单位进行压缩,从而得到更好的检索效果。 ●我们根据lz算法,设计了一个简单算法,真正以单词为单位进行压缩(把词作为不可压缩的码字),编制程序进行了实验验证。实验结果表明,真正以单词为单位进行压缩,则检索性能大有提高,限于条件,简化算法没有达到lz算法最优压缩效果。
【学位授予单位】:北京语言大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:G354

【相似文献】
中国重要会议论文全文数据库 前4条
1 陈双平;郑浩然;王习书;王煦法;;生物序列的描述复杂性分析[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 张隽;吴江宁;马晖男;;模糊同义词库的建立与改进的VSM检索系统设计[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
3 张敏;马亮;马少平;陈群秀;;TREC2002介绍及清华大学实验研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 曹彦超;张书景;;基于B样条的环境特征提取方法研究[A];2011年全国通信安全学术会议论文集[C];2011年
中国重要报纸全文数据库 前6条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;“海”中捞“珍”[N];计算机世界;2003年
2 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;实验与实用系统[N];计算机世界;2003年
3 清华大学计算机系智能技术与系统国家重点实验室 刘奕群 张敏 金奕江;孰优孰劣 如何评断?[N];计算机世界;2003年
4 梅竹;清华摘取国际信息检索比赛两项桂冠[N];计算机世界;2002年
5 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
6 艾文;让检索系统更人性化[N];中国计算机报;2004年
中国博士学位论文全文数据库 前3条
1 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
2 贾庆山;增强序优化理论研究及应用[D];清华大学;2006年
3 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
中国硕士学位论文全文数据库 前7条
1 张隽;模糊同义词典在VSM文本信息检索方法中的应用[D];大连理工大学;2004年
2 马晖男;文本信息检索中修饰语作用的研究[D];大连理工大学;2004年
3 钟敏娟;基于Web的文本信息检索算法研究[D];湖南大学;2004年
4 邱春艳;基于粗糙集理论的智能信息检索方法的研究[D];东北师范大学;2005年
5 贾小盟;基于边缘结构几何划分的图像检索方法[D];中国海洋大学;2003年
6 代学武;基于神经网络的用户建模和Web信息过滤研究[D];西南师范大学;2003年
7 熊回香;网络信息检索及其发展趋势研究[D];华中师范大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026