基于本体的企业搜索优化技术研究
【摘要】:企业搜索是当今计算机领域中最为炙手可热的关键字之一,它面向海量的企业内部数据及网络数据,为用户提供有效、快速的信息获取服务,以帮助企业做出及时准确的行为决策。与Web搜索相比,企业搜索在搜索对象支持、搜索质量、搜索方式多样化、信息内容安全性等方面均提出了更高的要求。
本体最为一种强大的信息语义描述及推理工具,在信息搜索领域得到了广泛应用。本文针对企业搜索的特点,在分析传统搜索技术不足的基础上,展开了基于本体的企业搜索优化研究:首先,鉴于领域本体对企业搜索优化的指导作用和基础性地位,及现有本体在不确定知识表示、推理方面的局限性,重点研究了不确定领域本体建模技术;在此基础上,讨论了本体对企业文本搜索、数据库查询的作用和影响,依次研究了文本搜索中的基于本体的查询扩展技术、文本排序技术,以及关系数据库关键字查询中的搜索结果多样化技术。
本文的具体工作包括如下几方面:(1)分析领域知识特征,提出模糊领域本体建模需求,给出了一种模糊不确定知识的语义建模新方法,扩展了本体的语义描述及推理能力。以此为基础,构建了一个模糊语义检索系统,模拟实现了企业搜索的文本搜索功能;(2)将领域本体应用于查询语义扩展研究中,提出了一个概念语义相似度计算模型,该模型通过概念的属性约束集及概念在本体结构中位置信息的比较,计算概念间的语义相似度;(3)研究本体指导下的文本排序,提出一个文本排序新模型,它在充分挖掘查询、文本中潜在本体概念及其间语义关系的基础上,综合二者进行文本相关度计算及排序;(4)剖析关系数据库上的关键字搜索结果多样化问题,给出一种搜索多样化新方法,该方法利用本体进行查询解释消歧及排序,并基于查询解释序列生成搜索结果序列。实验表明,本文提出的模型及方法是可行、有效的。