收藏本站
《中国科学院研究生院(软件研究所)》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

文本主题切分技术和ROCCHIO模型在信息检索中应用的研究

吴曾  
【摘要】: 我们当前面临着信息爆炸的时代,如何从海量的信息获得所需要的成为人们在信息时代所面临的主要问题之一。随着信息检索技术研究的深入和应用的扩大,用户对检索的要求越来越细,研究者将全文本检索技术已经细分为问答式检索,网络检索,交互式检索,文本过滤等。为了检索系统的精度和用户对系统的满意度,研究者开始考虑如何在现有的自然语言处理和文本处理的理论下,综合使用各种相关理论和技术来更好的满足用户需求。 本文的提出背景是第12届国际文本检索大会的子项目,高精度文本检索(Text Retrieval Conference 12,High Accuracy Retrieval of Document Track)。首先分析了向量空间模型,它的优缺点,基于它广泛使用的SMART系统,概率空间模型,它的优缺点以及现在基于该模型的INQUERY平台。因为尽管现代信息检索已经不单纯是文本检索或者全文检索,而且这两种模型也已经提出了很多年,但是,上述两种模型以及各种基于此改进的模型还是广泛的用于各种检索方式的第一步或者它们处理问题的思想也被广泛的借鉴。然后,介绍了根据不同线索将文本中不同子主题切分的技术,这些线索包括词义网络和各个段落关键词出现的频率统计,并指出它们各自的优缺点。其次介绍了文本过滤技术,并分析了常用的Rocchio模型的特点。再次,介绍了用在本文所涉及到的浅层自然语言处理技术。最后,介绍了为了准确把握用户需求所需要的一些要素。 本文针对文本检索大会子项目的要求和基于段落的,用户查询时可能提供一篇相关文章的查询特点,首先将Rocchio模型和向量空间算法结合起来来把握用户需求并计算文档与查询的相关度,再使用梯度下降技术来训练模型中的参数,最后依据查询和段落层的相关度,使用基于段落切分的方法返回包含用户查询最相关文章。 最后,以上述技术为背景,本文实现了上述试验,并分析了试验结果。
【学位授予单位】:中国科学院研究生院(软件研究所)
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP391.3

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前1条
1 梁文婷;汉语文本主题分析技术的研究与实现[D];重庆大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 潘娣;;机器翻译的利弊以及发展前景[J];安徽文学(下半月);2008年09期
2 刘杨;;语料库与机器翻译[J];大众文艺(理论);2009年12期
3 李良炎,何中市,易勇;基于词联接的语义表示方法和知识库建设[J];重庆大学学报(自然科学版);2004年04期
4 李良炎,何中市,易勇;基于词联接的语义分析原理及其算法[J];重庆大学学报(自然科学版);2004年08期
5 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
6 施建军,徐一平;日语词汇单一汉译词自动获取研究[J];解放军外国语学院学报;2003年05期
7 郭荣,余涛,陆汝占;特征形式描述及特征预编译[J];计算机工程与应用;2003年29期
8 张辉,徐菁,陆汝占;利用数据挖掘扩充量词名词词典的方法[J];计算机工程;2003年13期
9 孙明勇,卢鹏,陆汝占;图算法句法分析器自动生成[J];计算机工程;2003年21期
10 齐璇,马红妹,陈火旺;汉语的语义分析研究[J];计算机工程与科学;2001年03期
中国博士学位论文全文数据库 前10条
1 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
2 何婷婷;语料库研究[D];华中师范大学;2003年
3 郭忠伟;作战文书自动生成理论及方法研究[D];南京理工大学;2003年
4 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
5 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
6 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
7 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
10 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 尹方园;“VA”动结式表层语义分析[D];湘潭大学;2010年
2 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
3 何文涛;基于分类文本库的文本分类系统的应用研究及实现[D];中国地质大学(北京);2011年
4 朱敬国;基于GLR算法的维吾尔语句法分析研究[D];新疆大学;2011年
5 张路;一种HMM的学习算法[D];西南交通大学;2010年
6 林伟贇;基于海量网页的同类命名实体共现统计规律的研究[D];北京工业大学;2011年
7 王永芳;面向农民的问答系统设计与实现[D];山西大学;2011年
8 张少平;基于结构化自然语言的算法规约研究[D];江西师范大学;2003年
9 由丽萍;动词与动词搭配自动获取方法研究[D];上海师范大学;2003年
10 李娜;面向作战文书智能处理的电子词典的研究与实现[D];南京理工大学;2003年
【同被引文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
2 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
3 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
4 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
5 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
6 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
7 陆汝钤,石纯一,张松懋,毛希平,徐晋晖,杨萍,范路;面向Agent的常识知识库[J];中国科学E辑:技术科学;2000年05期
8 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
9 麻志毅,姚天顺;基于情境的文本主题求解[J];计算机研究与发展;1998年04期
10 顾益军,于江德,刘群,樊孝忠;受限领域中文文本内容主题概念识别研究[J];计算机工程与应用;2004年01期
中国博士学位论文全文数据库 前1条
1 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前4条
1 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
2 倪丹;信息技术主题学习实践研究[D];东北师范大学;2007年
3 武旭晶;活知识的本质和形成[D];陕西师范大学;2007年
4 丁宏伟;内容知识库的研究和应用[D];北京信息控制研究所;2006年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 高琦;基于Bootstrapping的本体标注方法研究[D];重庆大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 叶鹰,马景娣,黄晨,朱聪,胡晓珍,刘琼;信息检索网上自助教学探索[J];大学图书馆学报;2000年02期
2 李慧敏,方敏,张雪梅;高校信息检索教育课教学改革构想[J];山东图书馆季刊;2001年02期
3 吴良凯;大学生信息检索教育的现状与对策[J];图书馆论坛;2003年05期
4 罗映红;基于网络的信息检索与信息检索能力的培养[J];高校图书馆工作;2004年02期
5 李其港;对高职信息检索课程教学改革的构思[J];职教论坛;2004年23期
6 李宙星;;浅析互联网信息超载[J];中国西部科技;2004年16期
7 陈璐;;亚马逊网络书店的信息检索[J];图书馆研究与工作;2004年04期
8 赖俊;周琳;张学平;;基于Web挖掘的主题式搜索引擎的设计[J];军事通信技术;2004年03期
9 王雅戈;Openfind搜索引擎功能解析[J];江西图书馆学刊;2005年02期
10 彭波,闫宏飞;搜索引擎检索系统质量评估[J];计算机研究与发展;2005年10期
中国重要会议论文全文数据库 前10条
1 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
2 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
3 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
9 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
10 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 刘静一;个人档案信息检索[N];建筑报;2000年
5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
6 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
7 刘立新;信息社会技术前瞻[N];学习时报;2006年
8 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
9 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
10 夏飞平 蒋光君;深圳局:信息检索实现“一点通”[N];中国国门时报;2009年
中国博士学位论文全文数据库 前10条
1 王彪;信息检索中信息需求域的研究[D];内蒙古大学;2012年
2 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
4 董道国;高维数据索引结构研究[D];复旦大学;2005年
5 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
7 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
8 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
9 马马杜 桑卡雷;基于多智能体的流体动力行业虚拟联盟信息检索的研究[D];浙江大学;2002年
10 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
2 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
3 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
4 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
5 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
6 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
7 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
8 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
9 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
10 吴媛媛;移动终端上个人信息检索核心子系统的设计与实现[D];北京邮电大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026