收藏本站
《北京邮电大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

文本检索中若干问题研究

王秀娟  
【摘要】:信息检索技术就是从信息的集合中识别和获取信息的技术,这种技术对人们的学习和科研有着重大意义,尤其是在互联网广泛应用的今天,信息数量激增,信息检索技术已经成为人们有效地开发和利用各种信息资源,更广泛、更快捷、更全面地吸收和获取信息的一条重要途径。本文的研究主要涉及文本检索中的文档处理、文本分类、查询优化等相关技术,主要成果包括: 1.文本分类中的特征选择 本文对常用的互信息函数进行了改进,引入了绝对可信度、相对可信度和综合可信度的概念,提出了基于互信息可信度的特征选择方法,该方法不仅考虑了某个词与某类的相关程度,还考虑了该词与各个类之间相关程度的差别,也就是与类别间互信息最大值的可信度,实验数据表明,相对于基本的互信息函数,基于互信息可信度的特征选择算法能够有效提高分类的准确率、召回率和F1值。此外,本文还提出对几种常规的评估函数进行归一化,或者基于这些常规评估函数进行局部特征选择,实验数据表明,归一化的特征选择和局部特征选择都或多或少地提高了系统的分类准确率。 2.多类判别问题 对于多类别文本的判别问题,通常需要对每个类别确定阈值,当文本与某类的相似度在该类的阈值之上,就将文本归于该类中。本文在多类判别问题的阈值确定方面进行了研究,提出了评估指标最大化阈值确定法,对任一类别,以最大化该类的分类评估值为准则,寻找该类的闽值。实验结果表明,该方法能够将部分多类样本正确分类,但是还需要进一步的研究。 3.查询优化 本文针对已有的带有衰减因子的词共现模型,提出了基于向量距离的改进互信息的查询扩展方法,将检索词在文档空间中的距离引入到互信息计算中,实验数据表明该算法能够有效提高信息检索系统的性能,此外,本文提出了可变权值的伪反馈算法,利用初次检索结果中前列文档与查询的相似度对Ide公式进行修改,实验数据证明该方法能够取得较好的反馈效果。 4.对文本图像的识别处理 本文研究了传统OCR技术中的相关内容,对经典滴水算法进行了改进,提出了一种惯性大水滴滴水算法,增大水滴的尺寸,并且使水滴具有了惯性,当它遇到连笔字符或者字符表面的凹槽时,不会像传
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前8条
1 孔峰;王丽君;吴俊华;;基于独立分量分析的文本特征提取算法[J];电子技术;2012年02期
2 孟祥娜;秦玉平;;一种基于分类和语义查询扩展的信息检索方法[J];信息技术;2010年09期
3 陈锐;张蕾;卢春俊;牟力科;;基于概念图的信息检索的查询扩展模型[J];计算机应用;2009年02期
4 郭庆琳;李艳梅;唐琦;;基于VSM的文本相似度计算的研究[J];计算机应用研究;2008年11期
5 宋艳华;;向量空间模型在电信企业中的应用[J];科技信息;2010年34期
6 和晓军;李宜兵;孙振国;;VSM模型在电信行业中的应用[J];沈阳理工大学学报;2010年03期
7 任姚鹏;陈立潮;张英俊;袁英;;结合语义的特征权重计算方法研究[J];计算机工程与设计;2010年10期
8 赵德平;蔡丽静;李鹏;;基于Newshingling的相似文本检测算法[J];沈阳建筑大学学报(自然科学版);2011年04期
中国博士学位论文全文数据库 前2条
1 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年
2 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 韩开旭;基于查询扩展的油田网络舆情监控系统[D];东北石油大学;2011年
2 罗叶飞;Web服务关系挖掘及应用研究[D];湖南科技大学;2011年
3 胡敬文;基于Ajax的水利信息服务研究与实现[D];中南大学;2008年
4 李艳梅;基于文本相似度的中文文本聚类的研究[D];华北电力大学(北京);2009年
5 邱萌;基于内容的多源新闻聚合关键技术研究与实现[D];华东师范大学;2010年
6 王雅玡;基于朴素贝叶斯和BP神经网络的中文文本分类问题研究[D];云南师范大学;2008年
7 田浩;基于PageRank值的文本相似度改进模型[D];湖北工业大学;2010年
8 周雪芹;主题搜索引擎中相关技术的研究与实现[D];湖北工业大学;2010年
9 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年
10 马庆;P2P网络中基于查询的聚类的研究[D];北京邮电大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
2 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
3 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
4 朱明,王军,王俊普;Web网页识别中的特征选择问题研究[J];计算机工程;2000年08期
5 张闯,吴铭,郭军;基于字符边缘特征的手写账号切分算法[J];计算机工程;2003年21期
6 张洪刚,吴铭,刘刚,郭军;基于模具的手写数字串切分算法及其应用[J];计算机学报;2003年07期
7 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
8 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
9 许嘉璐;现状和设想——试论中文信息处理与现代汉语研究[J];中文信息学报;2001年02期
10 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
中国重要会议论文全文数据库 前1条
1 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前3条
1 张毅波;中文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
2 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年
3 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 翁兴中;蔡良才;;基于神经网络理论的机场沥青道面状况评定[J];四川建筑科学研究;2010年01期
3 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
4 裴莉;傅庆;刘华军;;电力系统图像识别技术的研究和应用[J];安徽电气工程职业技术学院学报;2011年S1期
5 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
6 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
7 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
8 吴建国,俞庆英,吴海辉;汉字笔画若干数据的统计方法研究与应用[J];安徽大学学报(自然科学版);2005年03期
9 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
10 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 裴莉;傅庆;刘华军;;电力系统图像识别技术的研究和应用[A];2011年安徽省智能电网技术论坛论文集[C];2011年
3 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
4 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
5 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
6 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
7 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
8 刘华;张建华;王娆芬;王行愚;;人机系统操作员功能状态的模糊聚类方法[A];第二十九届中国控制会议论文集[C];2010年
9 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
10 尹雪娇;;基于蚁群算法的故障诊断[A];创新沈阳文集(A)[C];2009年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
4 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
7 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
8 张进;地震叠前数据的弹性阻抗非线性反演方法研究[D];中国海洋大学;2009年
9 汪木兰;神经网络硬化实现的共性技术在电力传动中应用研究[D];合肥工业大学;2010年
10 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
6 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
7 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
8 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
9 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
10 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 谢宇;张仰森;肖建涛;;规则与统计相结合的汉语词义消歧模型[J];北京机械工业学院学报;2007年03期
2 张闯;蔺志青;肖波;郭军;;适用于银行票据手写数字串切分的滴水算法[J];北京邮电大学学报;2006年01期
3 李勇,郭平;Sigmoid传输函数与三层前馈神经网络的映射能力[J];北京师范大学学报(自然科学版);2001年05期
4 王娟;;网络舆情监控分析系统构建[J];长春理工大学学报(高教版);2007年04期
5 冀胜利;李波;;基于SVM的中文文本分类算法[J];重庆工学院学报(自然科学版);2008年07期
6 贾鹏;颜佩丽;何军;李相庭;;基于边界特性改进直方图门限法的道路提取[J];测绘工程;2009年03期
7 张瑞林;肖桂荣;;AJAX技术在地理信息服务中应用研究[J];测绘科学;2007年06期
8 陈云浩,郭达志;万维网GIS中的构件技术[J];测绘通报;1999年03期
9 龚健雅;GIS中面向对象时空数据模型[J];测绘学报;1997年04期
10 张琪;手机短信:第五媒体的崛起[J];传媒;2005年01期
中国重要会议论文全文数据库 前1条
1 朱凯;周杰;何婷婷;;因特网语料自动下载分析软件的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 居琰;基于多层次信息融合的手写体汉字识别研究[D];重庆大学;2002年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
3 张蕾;概念结构及其应用[D];西北工业大学;2001年
4 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
5 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
6 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
7 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
8 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
9 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
10 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 江叶婵;手机阅读内容研究[D];安徽大学;2011年
2 卢文玉;基于视觉的车辆防撞预警研究[D];南京航空航天大学;2011年
3 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
4 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
5 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
6 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
7 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
8 张捷;手写数字识别的研究与应用[D];西安建筑科技大学;2004年
9 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
10 张红霞;渐进式中文文本分类技术研究[D];河北大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
2 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期
3 徐朝军;;基于主题搜索的通用教学资源共享平台设计[J];中国远程教育;2010年03期
4 南丽丽;任姚鹏;王春红;;分层式教学评价方法的设计与分析[J];太原师范学院学报(社会科学版);2012年01期
5 张星;刘帅;;基于空间向量的电子作业相似度检测的设计与实现[J];福建电脑;2014年02期
6 张晓孪;;基于概念图的自然语言处理中的语义研究与应用[J];宝鸡文理学院学报(自然科学版);2014年01期
7 陈泽健;祝胜林;罗贤锋;;基于问答对的荔枝种植答疑系统研究与实现[J];广东农业科学;2014年09期
8 袁晓峰;;基于《知网》的文本相似度研究[J];成都大学学报(自然科学版);2014年03期
9 翟永梅;陈刚;欧阳倩雯;;基于GIS的建筑物震害预测系统的开发与应用[J];地震研究;2015年01期
10 ;RESEARCH ON OPTIMIZING THE MERGING RESULTS OF MULTIPLE INDEPENDENT RETRIEVAL SYSTEMS BY A DISCRETE PARTICLE SWARM OPTIMIZATION[J];Journal of Electronics(China);2012年Z1期
中国博士学位论文全文数据库 前9条
1 孙静宇;基于CBR的协同Web搜索研究[D];太原理工大学;2010年
2 邱奇志;基于本体的学习对象发现机制的研究与应用[D];武汉理工大学;2009年
3 姜怡;基于文本互文性分析计算的典籍翻译研究[D];大连理工大学;2010年
4 徐毅;粗细粒度双知识网映射的零部件设计重用方法[D];大连理工大学;2012年
5 承达瑜;空间型热点会商系统的动态服务计算研究[D];中国矿业大学;2012年
6 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
7 赵旭剑;中文新闻话题动态演化及其关键技术研究[D];中国科学技术大学;2012年
8 邓莉琼;辅助动画视频分析的相似视频片段匹配技术研究[D];国防科学技术大学;2012年
9 张金松;基于引文上下文分析的文献检索技术研究[D];大连海事大学;2013年
中国硕士学位论文全文数据库 前10条
1 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
2 石安磊;基于文本相似度评分的中医案例分析系统研究与实现[D];西北大学;2011年
3 李凤;本体协助的客户关系管理系统的研究与实现[D];华北电力大学(北京);2011年
4 陈永超;基于字数差别因子的中文文本相似度研究[D];湖北工业大学;2011年
5 戴雪梅;面向购物的聚类搜索引擎的研究与实现[D];北京交通大学;2011年
6 梁浩;网络新闻相似度检测系统[D];吉林大学;2011年
7 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
8 李琚彪;质检舆情监控系统中信息检索的研究[D];北京邮电大学;2011年
9 何晓;模糊聚类算法在汉语文本聚类中的研究[D];天津财经大学;2011年
10 王利鑫;文本自动比对研究与应用[D];南京信息工程大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
2 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
3 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
4 王伟强;高文;段立娟;;Internet上的文本数据挖掘[J];计算机科学;2000年04期
5 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
6 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
7 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
8 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
9 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期
10 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
【相似文献】
中国期刊全文数据库 前10条
1 郭学娟;;超文本检索特点研究[J];中国科技信息;2007年09期
2 于水英;王辉;贾翔;;一种文本检索与信息化系统的设计[J];信息安全与通信保密;2011年06期
3 ;文本检索[J];计算机应用研究;1986年02期
4 GERARD SALTON;顾跃芳;;对自动文本检索系统的再思(上)[J];情报学刊;1988年02期
5 吴立德;黄萱菁;;文本检索会议简介[J];计算机科学;2002年12期
6 马张华,李玲;文本检索中的词汇控制研究[J];图书情报工作;2004年02期
7 周庆林;超文本检索模式的优化探讨[J];情报杂志;2005年08期
8 黄斌,杨世洪,吴钦章;用文本检索方法实现基于内容的图像检索[J];计算机工程与应用;2005年08期
9 李智超;熊风;富羽鹏;马少平;;分布式大规模文本检索系统[J];广西师范大学学报(自然科学版);2007年02期
10 施侃晟;刘海涛;舒平达;;一种提高文本检索准确性的关联方法[J];计算机应用与软件;2010年05期
中国重要会议论文全文数据库 前7条
1 吴立德;;文本检索和文本检索会议[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 王灿辉;茹立云;张敏;马少平;;基于伪反馈与分类的文本检索[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 吴立德;黄萱菁;;文本检索会议简介[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 张英武;杜凯;杨树强;韩伟红;;分布式海量文本检索系统研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
5 周水庚;胡江滔;胡运发;周傲英;;基于隐含语义索引的中文文本检索[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 丁凡;王斌;白硕;刘宜轩;李亚楠;;文本检索中句法信息的有效利用研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 史庆伟;基于小世界模型的P2P网络文本检索[D];天津大学;2008年
2 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前10条
1 张斌;基于主题的文本检索[D];北京邮电大学;2011年
2 吴保松;限定领域下基于概念图的文本检索[D];上海交通大学;2008年
3 郑毅;文本挖掘及其在文本检索中的应用[D];中国科学院研究生院(计算技术研究所);2002年
4 李惠民;限定领域的文本检索系统[D];内蒙古大学;2007年
5 高学斌;面向农村医疗的分布式文本检索关键技术研究[D];北京邮电大学;2014年
6 李翠曼;结合框架和描述逻辑的文本检索系统研究[D];河南科技大学;2013年
7 张申恒;基于本体的企业文本检索模型研究[D];合肥工业大学;2005年
8 赵显亮;基于小世界理论的P2P文本检索研究[D];西安电子科技大学;2011年
9 邹俊杰;受限域问答系统文本检索研究[D];昆明理工大学;2011年
10 李绪维;微博短文本检索关键技术研究[D];哈尔滨工业大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026