基于领域知识的数据库模式匹配技术研究
【摘要】:
随着互联网技术的进步和人们曰益增长的需要,数据库已成为信息存储和共享的重要资源,大量的数据经过采集、整理存储在各类数据库中。数据库用户为了提高所在行业、部门的效率,针对行业自身的特点,设计各具特色的数据库来存储、管理相关数据。由于不同的环境背景所造成的数据源(关系数据库、面向对象数据库、XML等)异构问题已经成为信息采集的主要障碍。实现各数据源集成首要问题是定义数据库模式之间的语义映射关系,即所谓的数据库模式匹配。
本文首先介绍数据库模式研究内容、数据库模式分析工具和领域知识研究内容。其次,在分析传统的数据库模式属性1:1匹配技术基础上,给出一种基于领域知识的数据库模式复杂匹配方法。在模式匹配预处理阶段,结合数据库应用背景分析领域知识,给定数据库模式和领域知识的形式化表示方法;在匹配产生阶段,根据目标属性的数据库模式信息,应用领域知识对源模式中属性进行分类查找和剪枝;在匹配评估阶段,应用领域约束的权值等对匹配候选的相似度进行运算和传播,更新匹配候选的相似度;在匹配选择阶段,应用领域集成条件和数据实例特征,对匹配候选进行验证,同时可提供一个扩展功能实现用户与匹配操作的交互,用户选择目标属性的最佳匹配。最后,将用户验证后的不违反领域约束的最高相似度匹配候选作为已有匹配反馈到匹配操作中,指导下一次匹配操作完成。
本文通过实验对匹配方法进行验证,并对实验结果进行对比分析,论述匹配方法的优点和不足。