收藏本站
《湖南大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web的文本信息检索算法研究

钟敏娟  
【摘要】:随着互联网技术的迅速发展,网上文本数量成指数级增长,如何有效检索这些海量信息成为当前重要的研究课题。文本信息检索(Information Retrieval)是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。文本信息检索是处理海量文本的重要手段。本文主要研究基于Web的文本信息检索算法。 本文首先介绍了信息检索的发展概况和相关技术,分析了基于内容检索算法、基于超链分析检索算法以及融合检索算法的特点。针对内容检索方法查全率不高、超链分析检索方法容易产生主题漂移的缺点,本文将基于内容和超链分析的检索方法相结合,提出一种基于超链接和标记文本的信息检索算法。该算法利用网页之间的链接关系和超链接中的标记文本内容计算网页的综合权值,在此基础上将检索结果进行排序输出。实验结果表明,该算法具有较高的查全率和查准率。 为了提高检索的查准率和降低检索时间,本文将文本分类和信息抽取技术辅助检索,提出了一种基于分类和关键词组抽取相结合的信息检索算法。该算法加入了分类和抽取技术,避免了向量空间模型算法中时间复杂度过大,查准率不高的缺点。实验结果表明,所提算法具有更快的查询速度和更高的查准率。同时,针对传统的信息检索性能指标无法有效地衡量检索结果的排序状况,本文还引入了排序误差率概念用于评价检索结果的排序,并将其应用于向量空间模型算法、基于分类的交互式检索算法以及分类和关键词组抽取相结合的检索算法中,实验结果表明,本文所提算法具有较小的排序误差率。 最后,本文在已有信息检索算法的基础上,结合所提出的改进算法及技术,实现了一个专业领域的全文检索原型系统。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP393

手机知网App
【相似文献】
中国重要会议论文全文数据库 前9条
1 张隽;吴江宁;马晖男;;模糊同义词库的建立与改进的VSM检索系统设计[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
2 张敏;马亮;马少平;陈群秀;;TREC2002介绍及清华大学实验研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 钟炼;;网络体育文献信息检索研究[A];第七届全国体育科学大会论文摘要汇编(二)[C];2004年
4 崔秀琴;冯如进;;苏北水网地区三维地震解决小断块复杂构造的方法技术[A];地球物理与中国建设——庆祝中国地球物理学会成立50周年文集[C];1997年
5 姜云洲;齐德昱;;一种基于XML的付费搜索服务业务流模型[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
6 石薇;杨素琴;;浅谈档案工作服务于西部开发的作用与措施[A];陕西省第七次档案学术讨论会论文汇编(上册)[C];2000年
7 万英;蒋梁中;翟敬梅;;虚拟数据库与WEB数据挖掘[A];首届泛珠三角先进制造技术论坛暨第八届粤港机电工程技术与应用研讨会论文专辑[C];2004年
8 杨桂兰;;套管针在糖耐量试验采血中的应用[A];全国静脉输液讲习班暨研讨会论文汇编[C];1999年
9 杨晓春;刘锐;刘化冰;李虹;曹景;孙艳玲;刘延淮;;中国中药专利数据库[A];中国制药工业药理学会20周年学术会议论文集[C];2002年
中国重要报纸全文数据库 前10条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;“海”中捞“珍”[N];计算机世界;2003年
2 徐超;“人口小普查”须查准三种人口数据[N];中国信息报;2005年
3 记者 罗静雯;城口县:“四百计划”助推查准发展“短板”[N];重庆日报;2009年
4 陈万金 特约记者 齐明宇;摸清基层情况 破解管理难题[N];解放军报;2010年
5 牟丕志 王欣;实时监控房地产开发类客户[N];金融时报;2006年
6 李朋朋、曹钰华;8613部队坚持立查立改保安全[N];人民武警;2010年
7 记者 李道申;问题查准查深 制度立改立行[N];检察日报;2010年
8 上海市工商局闸北分局 陆珏珏;把禁令植入干部内心[N];中国工商报;2004年
9 李顶邵飞;梁园区坚持“四个不怕”深挖问题[N];商丘日报;2008年
10 程英豪 马笑苏;统计稽查的难点和对策[N];中国信息报;2008年
中国博士学位论文全文数据库 前4条
1 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
3 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
4 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
中国硕士学位论文全文数据库 前10条
1 钟敏娟;基于Web的文本信息检索算法研究[D];湖南大学;2004年
2 张隽;模糊同义词典在VSM文本信息检索方法中的应用[D];大连理工大学;2004年
3 马晖男;文本信息检索中修饰语作用的研究[D];大连理工大学;2004年
4 杨悦;基于内容的多媒体检索系统[D];天津大学;2003年
5 张爱民;自然语言处理及其智能搜索引擎模型的设计研究[D];兰州理工大学;2003年
6 蒋伟华;搜索引擎中的信息抽取技术研究[D];湖南大学;2001年
7 熊回香;网络信息检索及其发展趋势研究[D];华中师范大学;2003年
8 欧阳柳波;基于XML的元数据近似匹配模型研究[D];湖南大学;2004年
9 夏洪斌;基于知识分词算法的病案全文检索系统[D];第二军医大学;2004年
10 骆昌日;基于统计方法的中文文本自动分类研究[D];华中师范大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026