收藏本站
《南京理工大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

信息检索相关技术研究

王树梅  
【摘要】: 随着互联网的快速发展,网上的信息呈指数级增长。因此,如何处理网上的海量信息成为非常重要的研究课题。文本分类和信息检索的研究可以帮助人们有效的从网上找到自己感兴趣的信息,帮助用户在日益增多的信息中发现对自己有用的知识。本文从以下三个方面对信息检索的相关问题进行了研究: 首先对文本分类相关技术进行讨论。主要包括:1)引入义类的概念,设计了一个图结构的同义词词典,并给出了该词典的生成算法。应用该词典可以按语义对向量维数进行压缩;词典作为文本分类系统的启发式知识,可以提高系统的模拟推理能力、增加系统对开放语料的处理能力。2)提出一种仿人文本分类算法,该算法一方面基于文章的标题可以突出内容的观点,在处理特征向量时增加标题的权重;另一方面,设计了一维加权因子ω向量,用以模仿人工分类专家的略读和跳读,对大量出现在正例集而较少出现在反例集中的特征项,在计算文档聚类中心时增加它们的权重。实验表明:该算法可以较好的提高文本分类系统的性能。 其次,是对网页检索相关问题的研究。主要研究内容:1)针对搜索引擎检索的对象是Web页面这一特点,通过分析HTML标签的修饰功能,结合传统的tf-idf加权公式,对网页进行加权索引。实验证明对于精确匹配,在查全率较低时系统的查准率有较大的提高。2)利用词间相关性进行查询结果重排。根据Web页面篇幅较小的特点,提出“网页主题关键词集合”的概念。利用词间相关性计算用户查询词集合与网页主题关键词集合之间的距离,对检索结果重新排序。将与用户查询需求相关性较大的网页排在前面。3)查询扩展是提高信息检索效果的一个有效方法,而扩展词的选择是查询扩展的一个难点。通过词共现分析,提出了一种新的词间相关性计算方法,应用于查询扩展,所选扩展词和查询整体关联,较好地反映了查询主题。实验表明,基于这种词间相关性进行查询扩展,对于信息检索性能有一定提高。 最后,对基于内容的多媒体信息检索进行研究。分别对MPEG-7标准的部分描述子进行多媒体检索实验研究。在此基础上,1)提出了一种利用MPEG-7标准中的主颜色描述子抽取镜头视频关键帧的方法,并进行了相应的实验;2)利用主颜色描述子与同构型纹理描述子所适应的检索范围不同,结合两者对关键帧进行了检索实验;3)将以上研究结果应用于“CG(Computer Graphics)制作环境项目管理系统”。
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前10条
1 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
2 刘远超;王晓龙;刘秉权;钟彬彬;;信息检索中的聚类分析技术[J];电子与信息学报;2006年04期
3 陈文亮;朱靖波;朱慕华;姚天顺;;基于领域词典的文本特征表示[J];计算机研究与发展;2005年12期
4 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
5 赵军;金千里;徐波;;面向文本检索的语义计算[J];计算机学报;2005年12期
6 李粤,李星,刘辉,许静芳;一种改进的文本网页分类特征选择方法[J];计算机应用;2004年07期
7 许静芳,李星,李粤;信息检索中主题式词典的构建方法[J];计算机工程;2005年21期
8 余芳;一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J];计算机工程与应用;2004年13期
9 李岚,冯刚;MPEG——7与基于内容的图像检索[J];计算机工程与应用;2002年17期
10 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
中国博士学位论文全文数据库 前6条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
3 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
4 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前2条
1 左家莉;基于Markov网络的信息检索模型[D];江西师范大学;2005年
2 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 李小琳,何湘东,苑森淼;基于信息论和遗传算法的Bayesian网络弧定向方法研究[J];复旦学报(自然科学版);2004年05期
2 王双成,苑森淼;具有丢失数据的可分解马尔可夫网络结构学习[J];计算机学报;2004年09期
3 张亮,苏宏江,赵耀;基于MPEG-7和消隐镜头检测的视频检索系统[J];北京交通大学学报;2005年05期
4 姜秀华,王玉霞,陈旭灿;基于内容的检索技术与系统实现[J];北京广播学院学报(自然科学版);2003年01期
5 杨有山,张秀丽;基于内容的视频信息检索[J];北京广播学院学报(自然科学版);2004年04期
6 吕四化,史萍,王惠明;小波变换模极大值法在图像边缘检测中的应用[J];北京广播学院学报(自然科学版);2005年01期
7 王惠明;史萍;;图像纹理特征的提取方法[J];中国传媒大学学报(自然科学版);2006年01期
8 侯冠华;史萍;;视频分割与场景聚类算法研究[J];中国传媒大学学报(自然科学版);2006年02期
9 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
10 余正涛,樊孝忠,宋丽荣;基于特定问题类别的汉语问答系统查询扩展[J];北京理工大学学报;2005年10期
中国重要会议论文全文数据库 前10条
1 吴柳蓉;胡强;覃团发;;基于MPEG-7多特征组合的图像检索技术[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 郭健;陈孝威;;一种基于内容的WWW图像搜索引擎系统模型[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
3 何新;赵亚琴;周献中;;基于多层次支持向量机分类树的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
5 陈林;章志凌;罗海飞;邵晓敏;汪更生;陈弈秋;何伟杰;;基于贝叶斯网络模型的智能节目选择的设计与实现[A];第二十四届中国控制会议论文集(下册)[C];2005年
6 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
7 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
8 姚文琳;王莉;王璀民;;基于Ontology的知识检索系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
10 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
中国博士学位论文全文数据库 前10条
1 王双成;面向智能数据处理的图形模式研究[D];吉林大学;2004年
2 黄解军;贝叶斯网络结构学习及其在数据挖掘中的应用研究[D];武汉大学;2005年
3 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
4 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
5 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
6 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
7 王亮申;图像特征提取及基于内容图像数据库检索理论和方法研究[D];大连理工大学;2002年
8 WANG Jiayue;[D];广东外语外贸大学;2003年
9 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
10 王辰;多媒体融合分析技术的研究与实现[D];中国人民解放军国防科学技术大学;2002年
中国硕士学位论文全文数据库 前10条
1 何湘东;贝叶斯网络弧定向方法研究[D];吉林大学;2004年
2 左家莉;基于Markov网络的信息检索模型[D];江西师范大学;2005年
3 陆小艺;贝叶斯分类器的增量学习及缺失数据处理的研究[D];广西师范大学;2005年
4 袁亮;一个基于WEB的信息组织与检索模型(WIORS)研究[D];武汉大学;2005年
5 张鸣;学科专题知识库的知识组织及实现研究[D];武汉大学;2005年
6 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
7 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年
8 乔珠峰;基于不完整数据处理方法的贝叶斯分类器研究[D];北京交通大学;2007年
9 朱干江;非参数密度估计在判别分析中的应用[D];南京信息工程大学;2007年
10 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 王望珍,王先甲,钱耕;不对称信息下物业管理的委托代理分析[J];科技进步与对策;2003年08期
2 符锌砂,王彦军,贾德良;基于B/S架构的城市桥梁管理信息系统[J];华南理工大学学报(自然科学版);2004年10期
3 刘健,贾丽君,朱俊毅,耿德华,肖汝诚;城市桥梁信息管理系统研究与开发[J];交通与计算机;2001年05期
4 齐向华;文本信息检索模型[J];晋图学刊;1998年03期
5 贺婷婷;闫永君;;国内外网站评价研究比较及分析[J];图书与情报;2006年03期
6 何政伟,黄润秋,许强,姜琪文,赵银兵,刘少军;基于ARCGIS的地质灾害防治信息与决策支持系统的研制[J];吉林大学学报(地球科学版);2004年04期
7 陈平;丛威青;;GIS支持下的湖南省地质灾害气象预警系统建设探讨[J];成都理工大学学报(自然科学版);2006年05期
8 范继跃;何政伟;赵银兵;倪忠云;陈小亮;;GIS在四川九龙县地质灾害区划中的应用[J];成都理工大学学报(自然科学版);2007年02期
9 谢韬;何政伟;黄民奇;许辉熙;汪宙峰;;RS与GIS技术在库区地质灾害调查中的应用研究[J];测绘科学;2007年01期
10 刘华,王艳东,龚健雅;多数据源空间数据引擎关键技术问题研究[J];测绘信息与工程;2005年02期
中国重要会议论文全文数据库 前1条
1 郑旭玲;李堂秋;杨晓峰;陈毅东;;基于语义规则的汉语短语结构分析排歧初探[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
2 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年
3 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
4 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
5 侯孟书;基于P2P的分布式存储及其相关技术研究[D];电子科技大学;2005年
6 孙斌;基于GIS的办公自动化系统开发技术的研究和探讨[D];中国地质大学(北京);2005年
7 张虹;双边多议题自动协商研究[D];西南师范大学;2005年
8 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
9 梁平;面向产品生命周期数据的XML本源数据库的研究[D];合肥工业大学;2006年
10 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 汤义;基于MPEG-7标准的视频描述与检索[D];中国人民解放军国防科学技术大学;2002年
2 金芳;网络信息资源分类组织研究[D];华东师范大学;2001年
3 韩巍;Web信息智能检索研究[D];合肥工业大学;2004年
4 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年
5 张运涛;基于MPEG-7的图像特征描述及其检索技术研究[D];浙江工业大学;2005年
6 王开选;用户模型的结构表示及其应用研究[D];山西大学;2005年
7 苏金燕;专题数据库系统平台的相关技术研究与实现[D];中国人民解放军军事医学科学院;2005年
8 李怀苍;不同文化类型及商业性跨文化传播策略[D];武汉大学;2005年
9 龙军;国家科技奖励综合业务处理平台研究[D];中南大学;2005年
10 殷亚玲;基于概念图的相关反馈系统的研究与实现[D];西北大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 何盈捷,刘惟一;由Markov网到Bayesian网[J];计算机研究与发展;2002年01期
2 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
3 宫秀军,刘少辉,史忠植;一种增量贝叶斯分类模型[J];计算机学报;2002年06期
4 唐春生,金以慧;基于全信息矩阵的多分类器集成方法[J];软件学报;2003年06期
5 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
6 夏亮,郑万波,王智;包过滤系统中关键字过滤的实现及其性能分析[J];吉林大学学报(信息科学版);2003年02期
7 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报(自然科学版);2002年05期
8 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
9 韩立新,陈贵海,谢立;一个面向Internet的个性化信息检索系统模型[J];电子学报;2002年02期
10 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
中国重要会议论文全文数据库 前4条
1 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
3 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 金千里;赵军;徐波;;弱指导的统计隐含语义分析及其在跨语言信息检索中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前1条
1 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
【相似文献】
中国期刊全文数据库 前10条
1 丁志刚;王小捷;;一种基于类别意图的信息检索模型[J];郑州大学学报(理学版);2009年01期
2 乔亚男;齐勇;侯迪;;文本信息检索实验方法研究[J];中国科技论文在线;2009年02期
3 ;第七届全国搜索引擎和网上信息挖掘学术研讨会征文通知[J];小型微型计算机系统;2008年11期
4 ;第7届全国搜索引擎和网上信息挖掘学术研讨会征文通知 2009年5月22—24日,大连[J];计算机研究与发展;2008年11期
5 ;第七届全国搜索引擎和网上信息挖掘学术研讨会征文通知[J];小型微型计算机系统;2008年10期
6 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期
7 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
8 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
9 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
10 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前6条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
3 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
4 希安;微软试水信息检索[N];经济日报;2004年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 应晓敏 窦文华;技术架构[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
6 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
9 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
10 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
中国硕士学位论文全文数据库 前10条
1 丁志刚;基于类别意图的信息检索模型[D];北京邮电大学;2009年
2 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
3 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 闫晨;KNN文本分类研究[D];燕山大学;2010年
6 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
7 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
8 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
9 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
10 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026