收藏本站
《天津大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

NLP技术在中文信息检索中的应用研究

刘向威  
【摘要】: 随着科学技术的高速发展和各种信息资源数量的不断增多,为了提高效率,信息检索己经成为信息科学技术领域最重要的研究内容之一。其中涉及到自然语言处理(NLP)的技术有:分词、信息抽取、自动聚类和分类、自动摘要、查询扩展、等等。近年来,对网络中文信息检索的需求与日俱增。针对这一需求,本文对中文信息检索中涉及到的几项NLP关键技术进行了研究。 本文在深入研究基于向量空间模型的文本聚类方法的基础上,提出了一个新的聚类模型:即在传统的基于相似度的平面划分聚类模型中增加一个文本特征向量调整模块。本文同时给出了用以进行特征提取的特征评价函数,对基于相似度的平面划分聚类算法做了改进。实验结果表明增加了文档特征调整的聚类模型具有较好的聚类效果。 本文提出了一种基于主题聚类的自动摘要算法。在一篇文章中,主题思想由文中的各个子主题构成,如同议论文中的论点由分论点构成一样,基于主题聚类的自动摘要算法把统计方法与知识理解相结合,既摆脱了领域限制,又使摘要的结果更为准确。本文构造出一个新的依赖关系模型,能较好地为摘要算法选择较为准确的属性,给出评价语句重要性的规则,这为摘要算法提供了选择较为重要语句的尺度。本文还提出了一种较为客观的、基于任务的摘要性能评估算法。 目前大多数检索系统中,用户的需求是通过查询关键词来表示的。用户实际需求与查询关键词之间往往存在较大的语义差距,如何缩小这种语义差距是实现面向用户个性化信息服务的关键问题。本文提出了一种查询扩展优化算法,给出了对查询关键词的增加、删除和权重修改的自适应模型算法,在模型中给出了确定扩展关键词数量的方法,优化了查询反馈中的权重调节因子,使之能够更好的满足用户的实际需求。实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以提高查询精度。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;中文信息检索利器——TRS 4内容服务器[J];中国计算机用户;2000年42期
2 李文捷;中文信息检索中的自然语言处理(英文)[J];Transactions of Tianjin University;2000年02期
3 高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期
4 孙育华;韩中元;韩咏;李军;;中文信息检索中多索引策略融合的研究[J];黑龙江工程学院学报(自然科学版);2009年04期
5 曹桂宏,何丕廉,吴光远,聂颂;中文分词对中文信息检索系统性能的影响[J];计算机工程与应用;2003年19期
6 韩中元;韩咏;马威;崔硕;;中文信息检索中二元文法索引策略的改进[J];微计算机信息;2010年15期
7 孙巍;;一种面向中文信息检索的汉语自动分词方法[J];现代图书情报技术;2006年07期
8 杨小平,丁浩,黄都培;基于向量空间模型的中文信息检索技术研究[J];计算机工程与应用;2003年15期
9 贺宏朝,何丕廉,陈霞;利用人工和自动生成的资源进行中文信息检索查询扩展[J];计算机工程与应用;2002年21期
10 冯兰萍,张继国;基于本体的中文信息检索模型[J];河海大学常州分校学报;2004年04期
11 刘峰,韩咏,李晓红;基于相邻实词关系的汉语信息检索[J];自动化技术与应用;2005年03期
12 周水庚,关佶红,胡运发;基于文档实例的中文信息检索[J];计算机工程与应用;2000年10期
13 涂新辉;罗景;;基于相关术语群的中文查询扩展[J];计算机与数字工程;2008年01期
14 吴凡;;信息检索中的中文分词问题研究[J];情报杂志;2008年07期
15 陈颖;白淑琴;张学福;;基于共词分析的中文信息检索可视化研究[J];情报科学;2009年02期
16 孙宝传;有感于TRS千家用户诞生之时——扭住不放自主创新[J];中国传媒科技;2002年04期
17 郑新立;徐云青;骆昌日;;LSI模型在信息检索中的应用[J];计算机技术与发展;2006年10期
18 罗景;涂新辉;;基于概率潜在语义分析的中文信息检索[J];计算机工程;2008年02期
19 张新华;骆昌日;曹浪舟;;基于VSM的中文信息检索[J];高等函授学报(自然科学版);2006年04期
20 徐云青;徐义峰;李舟军;;基于VSM的中文信息检索[J];计算机系统应用;2007年04期
中国重要会议论文全文数据库 前5条
1 施水才;肖诗斌;都云程;王洪俊;;TRS中文信息检索技术的发展(摘要)[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 何婷婷;许婷;瞿国忠;涂新辉;;基于主题词对的文档重排方法[A];第三届学生计算语言学研讨会论文集[C];2006年
3 陈丕海;冯建华;邢春晓;郑晓慧;;SiteSearch的关键技术分析及汉化设计[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 陆汝占;;中文检索与汉语语义概念图表示[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 陈豫;;WWW网上中文信息的全文检索技术开发[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
中国重要报纸全文数据库 前10条
1 记者 贺建业 侯利红;拓尔思拟发行3000万股[N];上海证券报;2011年
2 付之;百度:技术制胜[N];网络世界;2001年
3 ;非门户网站的信息建设[N];网络世界;2001年
4 本报记者 赵齐;慧聪今秋对决GOOGLE[N];国际商报;2003年
5 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
6 本报记者 刘红鹰;搜索引擎还有戏?[N];信息时报;2000年
7 李冬梅 萧倩;软件触网慎思量[N];北京日报;2000年
8 安徽 张来东;在JAVA开发中的中文处理问题及解决办法[N];中国计算机报;2001年
9 本报记者 景小倩;中国软件别让泡沫给淹了[N];中国信息报;2000年
10 本报记者 李晓萍;个性订制——打开未来信息服务之门[N];经济参考报;2001年
中国博士学位论文全文数据库 前3条
1 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
2 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
中国硕士学位论文全文数据库 前10条
1 毛媛媛;基于语义扩展的中文信息检索系统设计与实现[D];电子科技大学;2013年
2 王平;小型中文信息检索测试集的构建与分析[D];河北大学;2009年
3 王志勇;基于统计语言学模型的中文文本信息检索[D];第二军医大学;2004年
4 瞿国忠;查询扩展技术研究[D];华中师范大学;2007年
5 王随涛;基于概念图模型的词汇多源释义的融合研究[D];上海交通大学;2010年
6 韩中元;中文索引策略的研究[D];哈尔滨工程大学;2007年
7 陈颖;基于摘要信息的中文信息检索可视化系统研究与实现[D];黑龙江大学;2007年
8 涂新辉;中文文本信息检索相关技术研究[D];华中师范大学;2006年
9 余刚;基于语义概念的文本特征描述[D];重庆大学;2005年
10 薛静;中文信息检索中相关算法的研究[D];辽宁科技大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978