基于知识分词算法的病案全文检索系统
【摘要】:随着科技的发展和经济的腾飞,图书馆、新闻出版、企业等单位电子数据激增,可供人们选择的信息迅速膨胀。这些文档常常并非存在于结构化的数据库中,以TXT, DOC, HTML,XML, XLS, PPT, PDF等多种文档格式存储。当人们需要某方面信息的时候,就要从这大量的文档中提取有用的信息。然而目前的全文检索系统或因特网搜索对中文信息在查全率和查准率很难让用户满意,这很大程度上与中文的语言特性相关。
本课题的研究重点是中文分词。汉语自动分词是中文信息处理技术的“瓶颈”问题。各类分词算法不下几十种。围绕提高分词效率和精度,减少歧义,本文提出了知识分词的思路,以各类知识体系为基础建立分词系统。
数据库全文检索技术也获得了蓬勃的发展。各大数据库厂商大都为自己的数据库配置了全文检索引擎。由于这种引擎是完全集成在数据库中的,因此具有很高的效率,并且管理方便,易于使用,容易与数据库应用系统相关联。本课题利用ORACLE大型数据库提供的全文检索引擎Oracle Text 建立一个病案全文检索系统,并将分词系统与Oracle Text建立关联,提高全文检索的查全率与查准率。
论文第一章概述了信息检索目前的应用现状和现实需求,阐述了本课题研究依赖的理论知识,阐明了课题的性质、课题的研究重点。第二章介绍全文检索技术的原理和发展趋势。第三章介绍各类汉语分词算法。第四章对知识分词系统进行了研究和实践。第五章对病案全文检索系统在ORACLE数据库中的实现进行了介绍。