收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

问答式OWL知识检索技术

高明霞  
【摘要】: 问答式检索以其符合普通用户行为习惯的输入输出模式、满意的准确度成为信息检索技术中的研究热点,先后出现了:面向数据库的问答式检索技术、面向Web的问答式检索技术、面向本体的问答式检索技术。但是,现有的问答式检索系统依然存在以下问题:(1)常用的手动建立和自动学习知识获取方式在建立效率和质量方面存在限制;(2)处理问题映射的方法通常是半自动的,需要用户手动解决语义模糊问题;(3)处理包含模糊概念和关系的问题存在困难。2004年被W3C推荐为工业标准的网络本体语言(Web Ontology Language,OWL)已经成为Web上知识表示和共享的基础。大量个人和学术团体专注于自动学习和手动建立不同领域的用OWL规范表示的本体知识库(本文称为OWL知识),Web上将保存大量OWL版本的本体知识。检索这些知识,实现用户和Web智能体间的动态交互已经成为Web智能(Web Intelligence)领域的重要研究内容。 针对问答式检索存在的问题,结合OWL语言规范的特点,本文集中研究了问答式OWL知识检索技术中三个重要问题:获取OWL知识库、映射自然语言问题成为OWL查询、扩展OWL语言的知识表示能力。这三个问题的研究内容和主要结果如下: 1.鉴于目前两种直接知识获取方式:手动建立和自动学习在本体建立效率和本体质量方面的限制,本文集中研究包括搜索、聚类、后处理三个关键步骤的OWL知识间接获取。基于OWL知识的主要语义特征(概念可以组织成具有等级的层次结构;复杂概念的语义通过简单概念说明;类的语义可以通过一些属性限制等。),提出了粗粒度和细粒度的OWL知识语义相似性计算方法,并用它们完成了OWL知识间接获取的两个重要步骤:搜索和聚类OWL文档。实验结果表明,粗粒度语义相似性计算方法具有较好的过滤和排序性能;尽管细粒度语义相似性计算方法对手工建立和自动学习到的OWL文档在参数设定方面有区别,但是只要输入正确的类型个数就能获得正确的聚类结果。 2.给定自然语言问题和OWL知识源,将自然语言问题映射为语义等价的OWL查询(RDF元组集)是获取正确答案的关键。为了完成上述任务,本文提出了一种三阶段语义映射框架,并在该框架的基础上研究了基于模糊约束满足和基于学习的两种自动语义映射方法及基于模版的查询组合方法,实现了一个问答式OWL知识检索原型系统——Agile。我们搜集了不同领域的三个OWL知识库和对应的问题集,以Agile为平台进行了一系列实验。结果表明:(1)自然语言处理技术、基于模糊约束的语义映射方法中软约束的优化顺序及两种组合精化方法对映射精度都有影响;(2)选定了软约束的优化顺序,知识库的具体结构差异会对基于模糊约束的语义映射方法有较少的影响;(3)消除了前两个阶段的错误影响,组合RDF元组时,两种精化方法可以极大的提高组合精度;(4)和基于模糊约束满足的语义映射算法中精度最高和最低的优化顺序比较,基于学习的映射算法精度通常介于二者之间;(5)树型、函数和懒惰型三类分类器上的比较实验说明:J48分类器在三个数据集上都取得了较好的效果。 3.现有知识表示语言的局限,使得一些包含模糊概念和关系的问题无法处理。本文的另一研究侧面是利用现有技术,扩展OWL语言规范,实现模糊问题检索。首先,以模糊描述逻辑为语义基础,为OWL语言扩展了模糊概念和关系等算子,并提出了OWL现有概念到新增算子的转换规则用于统一扩展语言的语义。其次,以扩展语言为媒介,特化了Zadeh提出的PNL(Precisiated Natural Language)过程,提出一种用自然语言检索FOWL知识的PNL式系统,重写了PFL格式的DDB推理规则。最后,用一个应用实例说明了该系统的检索流程。 本文的主要贡献如下: 1.为了解决OWL知识的间接获取,基于OWL知识的语义特点,提出一种用于计算OWL文档语义相似性的算法,结合层次聚类技术对该方法进行了分析和验证。该方法较好的反映了OWL文档的语义特点,聚类效果比较明显。 2.为了建立自然语言问题到RDF元组集的语义映射,提出一种基于模糊约束满足的语义映射方法。理论分析和实验验证表明该方法有较多优势:(1)该方法是完全自动的;(2)知识库的领域和结构差异对映射精度影响不大;(3)调整约束的优化顺序可提高映射的精度。 3.为了增强映射过程的学习能力,提出了基于学习的语义映射用于完成词集到元素集的自动映射。实验结果表明在训练数据充足的情况下,选择J48分类器,算法精度可以达到80%。 4.为了检索带模糊概念的问题,基于模糊描述逻辑扩展了现有OWL语言规范,并以扩展语言为知识表示方式,探讨了PNL式模糊知识问答系统。应用实例说明以扩展语言为知识源,利用模糊描述逻辑的推理机制和PNL式问答框架可以处理一些带模糊概念的自然语言问题。 总之,本文可以作为问答式检索技术的一个研究范例,被推广到其他信息格式和其他知识表示形式,并最终为问答式检索向实用化发展提供可行途径。


知网文化
【相似文献】
中国博士学位论文全文数据库 前1条
1 高明霞;问答式OWL知识检索技术[D];北京工业大学;2008年
中国硕士学位论文全文数据库 前1条
1 牛奔;基于WEB智能的E-Learning教学模型研究[D];吉林大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978