收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文本检索中若干问题研究

王秀娟  
【摘要】:信息检索技术就是从信息的集合中识别和获取信息的技术,这种技术对人们的学习和科研有着重大意义,尤其是在互联网广泛应用的今天,信息数量激增,信息检索技术已经成为人们有效地开发和利用各种信息资源,更广泛、更快捷、更全面地吸收和获取信息的一条重要途径。本文的研究主要涉及文本检索中的文档处理、文本分类、查询优化等相关技术,主要成果包括: 1.文本分类中的特征选择 本文对常用的互信息函数进行了改进,引入了绝对可信度、相对可信度和综合可信度的概念,提出了基于互信息可信度的特征选择方法,该方法不仅考虑了某个词与某类的相关程度,还考虑了该词与各个类之间相关程度的差别,也就是与类别间互信息最大值的可信度,实验数据表明,相对于基本的互信息函数,基于互信息可信度的特征选择算法能够有效提高分类的准确率、召回率和F1值。此外,本文还提出对几种常规的评估函数进行归一化,或者基于这些常规评估函数进行局部特征选择,实验数据表明,归一化的特征选择和局部特征选择都或多或少地提高了系统的分类准确率。 2.多类判别问题 对于多类别文本的判别问题,通常需要对每个类别确定阈值,当文本与某类的相似度在该类的阈值之上,就将文本归于该类中。本文在多类判别问题的阈值确定方面进行了研究,提出了评估指标最大化阈值确定法,对任一类别,以最大化该类的分类评估值为准则,寻找该类的闽值。实验结果表明,该方法能够将部分多类样本正确分类,但是还需要进一步的研究。 3.查询优化 本文针对已有的带有衰减因子的词共现模型,提出了基于向量距离的改进互信息的查询扩展方法,将检索词在文档空间中的距离引入到互信息计算中,实验数据表明该算法能够有效提高信息检索系统的性能,此外,本文提出了可变权值的伪反馈算法,利用初次检索结果中前列文档与查询的相似度对Ide公式进行修改,实验数据证明该方法能够取得较好的反馈效果。 4.对文本图像的识别处理 本文研究了传统OCR技术中的相关内容,对经典滴水算法进行了改进,提出了一种惯性大水滴滴水算法,增大水滴的尺寸,并且使水滴具有了惯性,当它遇到连笔字符或者字符表面的凹槽时,不会像传


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郭学娟;;超文本检索特点研究[J];中国科技信息;2007年09期
2 于水英;王辉;贾翔;;一种文本检索与信息化系统的设计[J];信息安全与通信保密;2011年06期
3 ;文本检索[J];计算机应用研究;1986年02期
4 GERARD SALTON;顾跃芳;;对自动文本检索系统的再思(上)[J];情报学刊;1988年02期
5 吴立德;黄萱菁;;文本检索会议简介[J];计算机科学;2002年12期
6 马张华,李玲;文本检索中的词汇控制研究[J];图书情报工作;2004年02期
7 周庆林;超文本检索模式的优化探讨[J];情报杂志;2005年08期
8 黄斌,杨世洪,吴钦章;用文本检索方法实现基于内容的图像检索[J];计算机工程与应用;2005年08期
9 李智超;熊风;富羽鹏;马少平;;分布式大规模文本检索系统[J];广西师范大学学报(自然科学版);2007年02期
10 施侃晟;刘海涛;舒平达;;一种提高文本检索准确性的关联方法[J];计算机应用与软件;2010年05期
11 赵医娟;潘来奇;;基于同义词扩展的文本检索改进研究[J];中国教育技术装备;2010年18期
12 张华;童德茂;顾红飞;;文本检索中动态索引技术研究[J];韶关学院学报;2011年02期
13 宗萍;;浅析文本检索关键技术[J];科技情报开发与经济;2012年14期
14 赵扬名;程耕国;鲍考明;;基于布鲁姆过滤器的文本检索系统研究[J];电子设计工程;2012年15期
15 戚志峰;文本检索的硬件实现[J];计算机工程;1985年04期
16 顾耀芳,方保伟;对自动文本检索系统的新见解[J];现代图书情报技术;1988年01期
17 陆皓,徐伟;一个自动文本检索原型系统[J];计算机工程;1991年04期
18 李斌;第二次文本检索会议资料的概述[J];管理科学文摘;1997年05期
19 郭以昆,吴立德,黄萱菁;大规模文本检索的现状及发展[J];计算机工程;1999年03期
20 梁昌勇,张申恒;基于本体的企业文本检索模型研究[J];计算机应用研究;2005年12期
中国重要会议论文全文数据库 前7条
1 吴立德;;文本检索和文本检索会议[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 王灿辉;茹立云;张敏;马少平;;基于伪反馈与分类的文本检索[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 吴立德;黄萱菁;;文本检索会议简介[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 张英武;杜凯;杨树强;韩伟红;;分布式海量文本检索系统研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
5 周水庚;胡江滔;胡运发;周傲英;;基于隐含语义索引的中文文本检索[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 丁凡;王斌;白硕;刘宜轩;李亚楠;;文本检索中句法信息的有效利用研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 史庆伟;基于小世界模型的P2P网络文本检索[D];天津大学;2008年
2 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前10条
1 张斌;基于主题的文本检索[D];北京邮电大学;2011年
2 吴保松;限定领域下基于概念图的文本检索[D];上海交通大学;2008年
3 郑毅;文本挖掘及其在文本检索中的应用[D];中国科学院研究生院(计算技术研究所);2002年
4 李惠民;限定领域的文本检索系统[D];内蒙古大学;2007年
5 高学斌;面向农村医疗的分布式文本检索关键技术研究[D];北京邮电大学;2014年
6 李翠曼;结合框架和描述逻辑的文本检索系统研究[D];河南科技大学;2013年
7 张申恒;基于本体的企业文本检索模型研究[D];合肥工业大学;2005年
8 赵显亮;基于小世界理论的P2P文本检索研究[D];西安电子科技大学;2011年
9 邹俊杰;受限域问答系统文本检索研究[D];昆明理工大学;2011年
10 李绪维;微博短文本检索关键技术研究[D];哈尔滨工业大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978