收藏本站
《天津大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

NLP技术在中文信息检索中的应用研究

刘向威  
【摘要】: 随着科学技术的高速发展和各种信息资源数量的不断增多,为了提高效率,信息检索己经成为信息科学技术领域最重要的研究内容之一。其中涉及到自然语言处理(NLP)的技术有:分词、信息抽取、自动聚类和分类、自动摘要、查询扩展、等等。近年来,对网络中文信息检索的需求与日俱增。针对这一需求,本文对中文信息检索中涉及到的几项NLP关键技术进行了研究。 本文在深入研究基于向量空间模型的文本聚类方法的基础上,提出了一个新的聚类模型:即在传统的基于相似度的平面划分聚类模型中增加一个文本特征向量调整模块。本文同时给出了用以进行特征提取的特征评价函数,对基于相似度的平面划分聚类算法做了改进。实验结果表明增加了文档特征调整的聚类模型具有较好的聚类效果。 本文提出了一种基于主题聚类的自动摘要算法。在一篇文章中,主题思想由文中的各个子主题构成,如同议论文中的论点由分论点构成一样,基于主题聚类的自动摘要算法把统计方法与知识理解相结合,既摆脱了领域限制,又使摘要的结果更为准确。本文构造出一个新的依赖关系模型,能较好地为摘要算法选择较为准确的属性,给出评价语句重要性的规则,这为摘要算法提供了选择较为重要语句的尺度。本文还提出了一种较为客观的、基于任务的摘要性能评估算法。 目前大多数检索系统中,用户的需求是通过查询关键词来表示的。用户实际需求与查询关键词之间往往存在较大的语义差距,如何缩小这种语义差距是实现面向用户个性化信息服务的关键问题。本文提出了一种查询扩展优化算法,给出了对查询关键词的增加、删除和权重修改的自适应模型算法,在模型中给出了确定扩展关键词数量的方法,优化了查询反馈中的权重调节因子,使之能够更好的满足用户的实际需求。实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以提高查询精度。
【学位授予单位】:天津大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前2条
1 黄默丽;NLP技术在中文全文信息处理中的应用研究[D];郑州大学;2010年
2 雷佳音;基于概念树剪枝的LCA查询扩展技术研究[D];昆明理工大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 杨广文,郑纬民,王鼎兴,李晓明;一种有效的启发式聚类算法[J];电子学报;1999年02期
2 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
3 卜东波,白硕,李国杰;聚类/分类中的粒度原理[J];计算机学报;2002年08期
4 高新波,谢维信;模糊聚类理论发展及应用的研究进展[J];科学通报;1999年21期
5 张洪刚,刘刚,郭军;FCM-VKNN聚类算法的研究[J];自动化学报;2002年04期
6 何清;模糊聚类分析理论与应用研究进展[J];模糊系统与数学;1998年02期
7 王永成,许慧敏;OA中文文献自动摘要系统[J];情报学报;1997年02期
8 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
9 李小滨,徐越;自动文摘系统EAAS[J];软件学报;1991年04期
10 钱卫宁,周傲英;从多角度分析现有聚类算法(英文)[J];软件学报;2002年08期
中国博士学位论文全文数据库 前2条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前1条
1 赵志荣;个性化搜索引擎的研究、设计与实现[D];四川大学;2002年
【共引文献】
中国期刊全文数据库 前10条
1 刘丽;DNA序列分类模型[J];安徽农业大学学报;2005年03期
2 梁伍七,江克勤;数据挖掘中的模糊聚类分析及其应用[J];安庆师范学院学报(自然科学版);2004年02期
3 王丽影;刘媛媛;李建英;;个性化服务在网络课程中的应用研究[J];办公自动化;2009年20期
4 胡奎;汤帜;高良才;;基于多级特征提取的中文文本图像压缩算法[J];北京大学学报(自然科学版);2010年06期
5 李玉鑑;;基于最小树切割的自适应聚类方法[J];北京工业大学学报;2007年03期
6 袁运能;吴央;成功;;核空间聚类在图像纹理分类中的简化算法[J];北京航空航天大学学报;2008年03期
7 李岩;王惠文;叶明;刘丹;;基于Squeezer算法的大规模矩阵聚类分析[J];北京航空航天大学学报;2009年12期
8 张国英,沙云,刘旭红,刘玉树;高维云模型及其在多属性评价中的应用[J];北京理工大学学报;2004年12期
9 张国英,沙芸,余有明,刘玉树;基于属性相似度的云分类器[J];北京理工大学学报;2005年06期
10 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期
中国重要会议论文全文数据库 前10条
1 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
2 ;Novel Hybrid Clustering Algorithm Incorporating Artificial Immunity into Fuzzy Kernel Clustering for Pattern Recognition[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Hybrid Clustering Algorithm Based on Grid Density and Rough Sets[A];第二十七届中国控制会议论文集[C];2008年
4 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
5 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
6 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
7 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
8 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
9 徐羽琼;李石坚;姚敏;;基于情境感知的个性化邮件服务[A];第四届和谐人机环境联合学术会议论文集[C];2008年
10 刘咏梅;卢鸿剑;杜美玲;;基于Multi-agent的个人电脑客户定制服务推荐系统[A];2006中国控制与决策学术年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
2 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
3 徐红林;基因调控网络的建模及其结构分解方法研究[D];江南大学;2010年
4 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
5 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
6 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
7 吕青;思维进化和支持向量机理论及其在炼焦配煤优化中的应用研究[D];太原理工大学;2011年
8 高翠芳;模糊聚类新算法及应用研究[D];江南大学;2011年
9 许相莉;基于智能计算的图像检索算法研究[D];吉林大学;2011年
10 严慧;线性特征抽取研究及其在人脸识别中的应用[D];南京理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 吴则则;支持动态演进的用户兴趣模型挖掘方法研究[D];山东科技大学;2010年
3 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
6 蔡宏果;基于基因表达式编程的Web个性化推荐技术研究[D];广西师范学院;2010年
7 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
8 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
9 王林吉;基于CIELAB均匀颜色空间和聚类算法的混纺测色研究[D];浙江理工大学;2010年
10 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 林鹏,李祖枢,刘朝涛,曹志娟;自然语言处理与情报检索[J];重庆工业高等专科学校学报;2004年04期
2 徐磊;;基于NLP的信息检索[J];黑龙江教育学院学报;2008年03期
3 李蕾,王楠,张剑,钟义信,郭祥昊,贾自燕;中文搜索引擎概念检索初探[J];计算机工程与应用;2000年06期
4 梁春燕,郭力,夏诏杰,杨章远;网络搜索引擎的性能优化策略和相关技术[J];计算机工程与应用;2004年36期
5 黄祥喜;刘卫国;;自然语言处理和情报检索[J];计算机科学;1986年05期
6 熊文新;宋柔;;信息检索自然语言查询问句处理框架[J];计算机科学;2006年10期
7 吴晨;张全;缪建明;韦向峰;;语义理解下的自然语言处理及信息检索模型[J];计算机科学;2008年05期
8 任永功;范丹;武佳林;;基于语义关联树的分类查询扩展算法[J];计算机科学;2009年09期
9 王昭龙;李霞;许瑞芳;;多关键字查询中LCA剪枝概念树的查询扩展技术研究[J];计算机科学;2010年04期
10 张超盟;李战怀;温宗臣;;局部上下文分析剪枝概念树的查询扩展[J];计算机工程;2009年14期
中国博士学位论文全文数据库 前2条
1 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
2 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前3条
1 程晓静;自然语言处理在药物专利检索系统中的应用[D];大连理工大学;2004年
2 王源媛;中文未登录名词短语的识别方法研究[D];重庆大学;2004年
3 李大高;信息检索中的查询扩展算法研究[D];江苏大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
2 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
3 孙铁利,邓安生;智能用户接口Agent的用户模型与系统构建方法[J];东北师大学报(自然科学版);2000年03期
4 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
5 罗庆霖,周琴;信息过滤模型及其基于神经网络的改进[J];电脑与信息技术;2000年03期
6 刘健庄;基于二维直方图的图象模糊聚类分割方法[J];电子学报;1992年09期
7 裴继红,范九伦,谢维信;一种新的高效软聚类方法:[J];电子学报;1998年02期
8 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
9 林锦贤,钟春芳;基于Agent的Web网页自适应检索模型[J];福州大学学报(自然科学版);2000年03期
10 史磊,王永成;英文文献自动摘要系统的研制与开发[J];高技术通讯;1999年11期
中国重要会议论文全文数据库 前1条
1 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前1条
1 齐剑锋 彭岩;[N];计算机世界;2001年
中国博士学位论文全文数据库 前1条
1 裴继红;基于模糊信息处理的图像分割方法研究[D];西安电子科技大学;1998年
中国硕士学位论文全文数据库 前1条
1 袁莉;基于Web的个性化信息服务机制[D];四川大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 ;中文信息检索利器——TRS 4内容服务器[J];中国计算机用户;2000年42期
2 李文捷;中文信息检索中的自然语言处理(英文)[J];Transactions of Tianjin University;2000年02期
3 高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期
4 孙育华;韩中元;韩咏;李军;;中文信息检索中多索引策略融合的研究[J];黑龙江工程学院学报(自然科学版);2009年04期
5 曹桂宏,何丕廉,吴光远,聂颂;中文分词对中文信息检索系统性能的影响[J];计算机工程与应用;2003年19期
6 韩中元;韩咏;马威;崔硕;;中文信息检索中二元文法索引策略的改进[J];微计算机信息;2010年15期
7 孙巍;;一种面向中文信息检索的汉语自动分词方法[J];现代图书情报技术;2006年07期
8 杨小平,丁浩,黄都培;基于向量空间模型的中文信息检索技术研究[J];计算机工程与应用;2003年15期
9 贺宏朝,何丕廉,陈霞;利用人工和自动生成的资源进行中文信息检索查询扩展[J];计算机工程与应用;2002年21期
10 冯兰萍,张继国;基于本体的中文信息检索模型[J];河海大学常州分校学报;2004年04期
中国重要会议论文全文数据库 前5条
1 施水才;肖诗斌;都云程;王洪俊;;TRS中文信息检索技术的发展(摘要)[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 何婷婷;许婷;瞿国忠;涂新辉;;基于主题词对的文档重排方法[A];第三届学生计算语言学研讨会论文集[C];2006年
3 陈丕海;冯建华;邢春晓;郑晓慧;;SiteSearch的关键技术分析及汉化设计[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 陆汝占;;中文检索与汉语语义概念图表示[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 陈豫;;WWW网上中文信息的全文检索技术开发[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
中国重要报纸全文数据库 前10条
1 记者 贺建业 侯利红;拓尔思拟发行3000万股[N];上海证券报;2011年
2 付之;百度:技术制胜[N];网络世界;2001年
3 ;非门户网站的信息建设[N];网络世界;2001年
4 本报记者 赵齐;慧聪今秋对决GOOGLE[N];国际商报;2003年
5 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
6 本报记者 刘红鹰;搜索引擎还有戏?[N];信息时报;2000年
7 李冬梅 萧倩;软件触网慎思量[N];北京日报;2000年
8 安徽 张来东;在JAVA开发中的中文处理问题及解决办法[N];中国计算机报;2001年
9 本报记者 景小倩;中国软件别让泡沫给淹了[N];中国信息报;2000年
10 本报记者 李晓萍;个性订制——打开未来信息服务之门[N];经济参考报;2001年
中国博士学位论文全文数据库 前3条
1 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
2 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
中国硕士学位论文全文数据库 前10条
1 毛媛媛;基于语义扩展的中文信息检索系统设计与实现[D];电子科技大学;2013年
2 王平;小型中文信息检索测试集的构建与分析[D];河北大学;2009年
3 王志勇;基于统计语言学模型的中文文本信息检索[D];第二军医大学;2004年
4 瞿国忠;查询扩展技术研究[D];华中师范大学;2007年
5 王随涛;基于概念图模型的词汇多源释义的融合研究[D];上海交通大学;2010年
6 韩中元;中文索引策略的研究[D];哈尔滨工程大学;2007年
7 陈颖;基于摘要信息的中文信息检索可视化系统研究与实现[D];黑龙江大学;2007年
8 涂新辉;中文文本信息检索相关技术研究[D];华中师范大学;2006年
9 余刚;基于语义概念的文本特征描述[D];重庆大学;2005年
10 薛静;中文信息检索中相关算法的研究[D];辽宁科技大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026