收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

自然语言叙词表自动构建研究

杜慧平  
【摘要】: 一个完整的检索系统包含四个子系统,即标引子系统,检索子系统,词表系统和用户-系统接口。其中,词表是检索系统的基础,是影响检索效率的最主要因素。 目前网络信息检索效率很低,主要原因是字面不匹配问题。为了改进检索系统的性能,需要引入叙词表等控制机制,使检索从字面匹配层次提升到概念匹配层次,从而实现概念检索。人工编制词表准确率高,但是成本高,建构速度慢,事先选用的词汇可能与检索系统后续新进的文献无关;有学者经实验证明,通用叙词表应用到特定领域的文献检索上,无法提高检索效率;另外,针对每一种文献领域制作叙词表,既耗时又费力,所以,自动快速地构建领域叙词表是提升网络信息检索效率所迫切需要的。 针对以上问题,本文提出了一种自然语言领域叙词表自动构建方法,该方法构建的词表能够在标引和检索两端对输入的自然语言进行控制,是一部“内核受控,外壳非控”的自然语言叙词表。 自动构建叙词表,是通过模式识别、同现分析、聚类分析等知识挖掘和自然语言处理技术自动识别词间等同、等级和相关关系。本文主要探讨词间等级关系和相关关系的自动识别,首先以Dice测度计算词汇之间的关联度,构建关联概念空间,在此基础上采用等级词聚类算法把表述同一类事物的词汇聚集在一起,然后通过等级识别算法识别出各簇内的词间等级关系;对于相关关系,主要通过关联概念空间提示相关词汇;对于等同关系,采用模式识别方法结合词面相似度算法予以识别。 本文以财税领域为试验数据来源,在自动构建一部财税领域叙词表后,将其应用到财税网页文本的自动标引上,把抽取的关键词通过财税词表自动转换为“内核”主题词实现赋词标引。同时,可以采用自然语言查询词表,系统会根据财税词表把自然语言词汇转换为最相关的内核受控词,提示给用户使用,从而减轻用户检索负担。 本文也探讨了如何对自动构建的词表进行更新和维护,并借鉴N-gram算法,实现了财税新词的识别功能,及时对自然语言叙词表进行补充和更新。 自然语言叙词表自动构建试验系统采用VB.NET程序设计语言和ACCESS数据库软件开发而成。


知网文化
【相似文献】
中国硕士学位论文全文数据库 前1条
1 杜慧平;自然语言叙词表自动构建研究[D];南京农业大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978