准内涵理论技术及网络信息处理研究
【摘要】:随着计算机技术迅速发展和网络应用的日益普及,Web信息呈现爆炸式的增长,我们需要对海量数据信息进行有效处理。面对这些网络信息以及网络知识的性质刻画和表达,形式概念分析、基于语义网的本体理论以及描述逻辑的信息处理和知识推理方法等已经成型的形式化系统工具都是不可或缺的。其中,形式概念分析中的形式背景及概念格就是一种较好的知识表示方法,为了有效地帮助我们处理互联网上流通的信息,在形式背景中找到内涵、准内涵(pseudo-intent,又称伪内涵)则显得极其重要,因为我们能在其基础上将领域知识中的隐含知识推导出来,并且找出各个属性之间的关系以及属性和个体之间的对应关系。目前,准内涵的研究已成为当前形式概念分析领域的一个研究热点。
在当今网络信息知识时代,形式概念分析作为一种强有力的数据分析工具,在表达力和推理上都起到了一定的作用,准内涵作为形式概念分析中的重要概念,它的全体则代表了在不同层次下的核心属性集。根据准内涵集可在语法上提出蕴含式的公理集合,将信息处理和知识工程提高到推理的层次,所以FCA理论,特别是“准内涵集”的寻求和“蕴含式集合”的建立已成为信息处理领域中很多问题的关键。而语义网的结点部分实际上就是本体库或描述逻辑库,在FCA的理论框架下,概念及概念的分层关系刻划得比较清楚,这个分层结构十分接近于本体理念。本体中所包含的概念以及概念之间的关系与形式概念分析中的概念格有一定的相似之处,本体库实际上就是一个格结构,我们将其应用到本体中就可以克服本体自身的一些缺点。因此,对准内涵理论知识和技术的研究是具有较高实际应用价值和理论价值的。
本论文的创新之处在于在国内开创性的对准内涵的理论知识进行深入的研究,首次清楚地对准内涵理论涉及到的一些基本理念问题进行详细的阐述。本论文对已有的基于概念内涵最小生成子的伪内涵计算方法(GPI算法)存在的冗余计算进行说明,并提出一种新的“准内涵集”的寻求算法,即基于格结构的面向下覆盖集ΓB的综合算法HLB (Hybrid Lattice Based pseudo-intent algorithm)。
本论文的主要研究内容包括以下几点:
(1)详细介绍了语义网、本体、描述逻辑和形式概念分析的基础理论知识。语义网是以“使Web上的信息具有计算机可理解的语义”作为目标,而本体做为语义网的应用基础则描述了其中的语义。为了更好地处理一般化的信息,就必须在语义网的环境下建立描述逻辑语言所支持的本体知识库。目前,构造本体库用的仍然是概念的格结构方法。
(2)本论文在国内开创性的对内涵、准内涵的结构性质进行深入的、较全面的研究。从形式概念格的格结构中刻画出形式背景(U,A,I)所有可能的准内涵,并具体给出这些准内涵的元素组成形式。
(3)本论文通过对前人文献中基于概念内涵最小生成子的伪内涵计算方法的分析,得出该算法含有几类冗余计算,并说明了这些冗余的计算和存储在任何的概念格结构中都会存在
(4)本文结合对内涵B的准内涵的特征研究和分类,归纳地给出概念格结点LA的准内涵的层次分解,并在此基础上提出一种基于格结构的面向下覆盖集ΓB的综合算法HLB。
本论文通过对准内涵的结构性质进行深入研究、分析后,提出一种基于格结构的面向下覆盖集ΓB的综合算法HLB算法,该算法能有效的求得形式背景中所有的准内涵,并且对该算法的正确性和完整性进行了说明。