NLP技术在中文信息检索中的应用研究
【摘要】:
随着科学技术的高速发展和各种信息资源数量的不断增多,为了提高效率,信息检索己经成为信息科学技术领域最重要的研究内容之一。其中涉及到自然语言处理(NLP)的技术有:分词、信息抽取、自动聚类和分类、自动摘要、查询扩展、等等。近年来,对网络中文信息检索的需求与日俱增。针对这一需求,本文对中文信息检索中涉及到的几项NLP关键技术进行了研究。
本文在深入研究基于向量空间模型的文本聚类方法的基础上,提出了一个新的聚类模型:即在传统的基于相似度的平面划分聚类模型中增加一个文本特征向量调整模块。本文同时给出了用以进行特征提取的特征评价函数,对基于相似度的平面划分聚类算法做了改进。实验结果表明增加了文档特征调整的聚类模型具有较好的聚类效果。
本文提出了一种基于主题聚类的自动摘要算法。在一篇文章中,主题思想由文中的各个子主题构成,如同议论文中的论点由分论点构成一样,基于主题聚类的自动摘要算法把统计方法与知识理解相结合,既摆脱了领域限制,又使摘要的结果更为准确。本文构造出一个新的依赖关系模型,能较好地为摘要算法选择较为准确的属性,给出评价语句重要性的规则,这为摘要算法提供了选择较为重要语句的尺度。本文还提出了一种较为客观的、基于任务的摘要性能评估算法。
目前大多数检索系统中,用户的需求是通过查询关键词来表示的。用户实际需求与查询关键词之间往往存在较大的语义差距,如何缩小这种语义差距是实现面向用户个性化信息服务的关键问题。本文提出了一种查询扩展优化算法,给出了对查询关键词的增加、删除和权重修改的自适应模型算法,在模型中给出了确定扩展关键词数量的方法,优化了查询反馈中的权重调节因子,使之能够更好的满足用户的实际需求。实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以提高查询精度。