基于叙词表的领域本体构建方法研究
【摘要】:本体构建的方式可分为两种:一是基于领域专家的手工构建方式;一是基于机器学习的自动/半自动构建方式。前者以人工工作为主体,所构建本体的语义内容依赖于构建者的个人知识,因此这种方式对知识瓶颈问题只是起到了一种缓解作用。而后者是通过机器学习的方式从海量信息中自动获取知识,是从根本上解决本体构建中知识瓶颈问题的重要途径。目前关于本体自动构建方面的研究越来越多,然而本体构建中领域依赖性强、自动化程度低、学习效果不理想等问题尚未得到很好的解决。特别是在中文本体构建方面,国内外对中文本体自动构建的研究非常少。
因此,本文在对当前本体构建技术及本体学习方法进行深入研究的基础上,提出一种领域本体自动构建的新思路,并重点研究以下几方面内容:
(1)提出一个基于叙词表的领域本体学习系统模型。该模型将叙词表的本体转换技术以及本体学习中关系获取的技术相结合,利用叙词表的固有优势,弥补了本体学习过程中由于概念及分类关系获取效果不佳的问题,并在此基础上通过对纯文本数据源进行关系学习,获取概念间的非分类关系,使得所构建的领域本体具有更丰富的语义信息。
(2)设计并实现了基于叙词表的领域本体学习系统。基于叙词表的领域本体学习系统分为叙词表转换模块以及非分类关系学习模块。在叙词表转换模块中,本文总结了一套领域叙词表本体转换的规则,并以此为依据实现了叙词表到领域初始本体的转换。在非分类关系学习模块中,以扩展的关联规则挖掘法为理论依据,利用中文自然语言处理等技术对中文语料库进行关系获取,并将关系学习的结果添加到初始本体之中。
(3)用该系统构建领域本体并对其进行评价。目前对本体的评价尚未形成标准,本文仅选用复用性、可扩展性、相关关系参照度等几个指标对本体自动构建结果进行评价。
本文设计并实现的基于叙词表的领域本体学习系统,为中文领域本体的自动构建提供了有价值的参考,且对基于中文本体的语义知识具体应用具有积极意义。