基于语义Web的知识处理研究
【摘要】:Web以其丰富的资源和强大的功能已经并更将吸引越来越多的用户,使网络应用真正走进机构和个人。但是,当前的搜索引擎是基于关键词的,返回的结果令人难以满意。面对Web上的信息,知识工作者不得不花费大量的时间进行浏览和阅读,以便找出文档间是如何相互关联的。只有当知识工作者开始在不同的信息间找出相似与不同时,他们才进入实质性的工作:构建关系以创造新的知识。
语义Web(Semantic Web)是当前Web的扩展。当前,Web内容是按照供人类理解的形式设计的,但却很难被计算机所理解。语义Web的内容是按照某种语义方式进行结构化设计,以便该内容不仅被计算机所理解,同时也为人类所理解。语义Web为人们将分布在Web上的分散资源集成为一致的相互关联的信息提供了强有力的基础。每个Web内容都可以有一个对应的平行的语义内容,语义内容是有关该Web内容中知识点及不同知识点(可以来自不同的数据源)之间相互关系的描述和表达。从某种意义上说,将本体(Ontology)应用到Web促进了语义Web的发展。领域本体对本领域描述和表达的对象、对象间关系及对象属性进行了规定,具体的描述和表达构成了知识库。本文中的知识处理不仅指利用语义Web相关技术对Web内容中的知识点及不同知识点之间相互关系进行表示、索引和检索等,而且指对已形成的语义内容进行自动解释、交换、集成和推理。Web内容除了文本和多媒体资源外,还包括大量涌现的Web服务资源。
本论文在充分评析国内外研究现状的前提下,全面、系统、深入地研究语义Web与知识处理的系统关系。论文利用语义Web相关技术,对Web上的文本、多媒体和服务三大资源的知识处理问题分别进行了研究,并结合知识信息管理平台案例分析,比较了基于关键词的索引检索与语义索引检索的性能。全文分为五个部分:
第一部分是语义Web理论与技术。XML为语义Web的发展带来了希望。语义Web的创始人Tim Berners-Lee认为:语义Web的目标是开发出表达性语言,从而以机器明白的形式描述信息。他将语义Web的功能架构总结为元数据层、模式层和逻辑层。在语义Web中,XML Schema作为基础构件,与XML一起,尽管缺少语义约束,但对具有语义约束力的RDF(Resource Description Framework)、RDF Schema和OWL(Ontology Web Language)起到很好的语法、结构与数据类型上的支撑作用。RDF是一种对Web资源进行信息表达的语言,其目的在于表达Web资源的元数据,如标题、作者、Web页面更改日期、Web文档的版权和注册信息、语言、格式、内容条目等。RDF Schema并不直接提供特定应用类以及属性的词汇,而是提供描述这些类和属性的工具,并显示哪些类和属性在一起使用。OWL被设计成用于那些处理信息的内容而不是仅向人类呈现信息的应用,OWL通过提供更多具有形式化语义的词汇,以便在Web内容的机器可理解性方面强于XML和XML Schema、RDF和RDF Schema等所能达到的程度。
第二部分是语义集成、索引和检索。主要针对Web上的文本资源。着重研究语义集成、