基于智能体和本体的语义数据集成研究
【摘要】:
随着计算机技术和网络技术的迅速发展,网络上的数据量呈指数级增长。网络信息空间中的信息具有信息量大、异构性强、信息内容动态变化和信息源分布自治等特点。这些特点为信息查询、信息共享等服务的实现造成了困难,因此如何将不同应用系统中异质信息资源的跨时间、空间的透明、无缝整合,以便以集成和统一的方式为用户提供更高层的信息服务,即数据集成,逐渐成为热点研究问题。
所谓信息源异构是指信息源可以是传统的结构化很强的关系型数据库系统和面向对象数据库系统,也可以是半结构化的文件,或者是彼此间查询接口各不相同的Web信息源。所谓信息源分布自治,是指信息源在物理上是分布的,并且信息集成系统对信息源的组成和提供的服务没有任何发言权。近年来,信息集成研究的焦点从解决信息语法、信息结构层面的异构逐渐发展到致力于消除信息语义层面的异构。
Tim Berners-Lee提出了语义网(Semantic Web),使机器可以理解网络资源的内容。在语义网中,信息被赋予定义完好的含义,是计算机可以理解的信息,更利于人机之间的交互,借助于本体就可以实现计算机对信息的理解。本体(Ontology)是领域知识的一种表示方法,它提供了一种明确的定义语义的方式。使用本体描述信息,使机器能够真正“理解”数据的含义,并在“理解”的基础上更好地处理和利用这些信息与知识。
随着语义Web中信息量的增多,本体的数量也越来越多。由于Web环境的分布性和开放性,信息表示是结构化的,本体是在并发环境下开发的,这就必然会导致在有可重用本体的情况下,人们还会继续重新开发新的本体,导致在同一个领域内会存在多个本体。这些本体的概念分类可能不同,概念间的关系也可能不同,并且相同的概念可能用不同的术语来表示。另外,本体的构造是一个非常费时费力的过程,一个用户为满足自己的不同需要而建立多个不同的本体是不现实的。在许多场合,单个本体不能充分完成目标任务,必须联合多个本体来完成。由于本体的构造一直没有一个统一的规范和标准,势必造成本体的冗余重复,影响本体之间的重用性和互操作性,导致这些本体所表示的知识之间存在互相冲突。异构的本体之间不能进行互操作,这是本体共享的主要障碍。因此需要进行本体之间的集成,实现本体之间的重用,并检测本体之间的冲突。
针对大规模异构数据,本文提出了用于异构数据表示、分类、检索和集成管理的统一数据模型(UDM)。对于不同类型的异构数据源,采用CORBA包装技术和UDM模型来进行包装,研发了智能异构数据包装系统(DWS)、查询系统(IQS)、事务处理系统(TPS)、目录服务系统(DSS)、查询优化系统(QOS)和存储系统(SS)。同时本文设计实现了原型系统SORE,该系统包含了基于本体的个性化查询原型系统PQP,实时监视用户浏览过程,实现个性化查询服务等功能。
借助Semantic Web中的本体技术,本文提出了基于本体语义的信息集成,提出了基于本体的信息集成框架,研究了信息表示模型、数据模式抽取、局部本体和全局本体的构建及其映射。本文基于本体的语义集成提出基于本体的智能信息集成系统架构,分析讨论了本体及映射的构建问题,其中包括本地本体和全局本体的构建以及本地映射及全局映射的构建,并结合实例数据研究了基于本体的语义查询方法及查询过程。并讨论了基于E-Connection理论的本体集成和本体模块化及基于结构的本体分解方法等。
由于网络的分散性、动态性和开放性,给语义网中的本体集成增加了很大的难度。此外,能够进行本体集成的系统也必然是一个复杂而且庞大的系统。Agent技术和多智能体系统(MAS)为上述研究难题提供了机遇。Agent的动态、自主等特性极大地满足了在语义网中进行本体集成的需求,也为实现本体集成的智能化打下了基础。多智能体系统是由多个Agent形成的松散耦合的网络系统,其研究的是一组具有自治智能Agent之间的行为协调,并且各Agent间存在着交互和联系。本文在对本体和Agent技术理论进行了深入的研究和探讨的基础上,研究基于智能体和本体的语义数据集成技术,设计并实现了一种基于多智能体系统(MAS)的本体集成系统。