本体辅助的空间关联规则挖掘研究
【摘要】:空间关联规则挖掘是空间数据挖掘和知识发现的重要内容,它主要是从GIS数据库中挖掘反映空间对象结构以及空间和非空间属性之间的关系等隐含规则,是GIS数据库内部不同子集的空间对象之间的关系的主要体现。在先前的空间关联规则研究中,许多研究者都关注于数据和算法本身,而对用户具有的先验知识和领域知识重视不够。于是,有学者提出了基于约束的规则挖掘和融入先验知识的规则挖掘。作为语义网语义分析的基础,基于描述逻辑的本体结构在表达用户和领域知识方面具有明显的优势,被相关学者引入数据挖掘来表达与挖掘相关的知识,其中大多数的研究都集中在数据挖掘本体的构建和过程的控制,而对挖掘的内容没做过多的优化。论文在分析空间关联规则挖掘的方法和优缺点后,提出利用本体表达的先验知识和用户知识来辅助进行空间关联规则挖掘的优化。
主要内容如下:
首先,分析了空间关联规则挖掘的研究进展,介绍了本体的相关概念和构建原则,在阐述“讨论对象”的四个度量的基础上,讨论了从“讨论对象”到本体语义的转换,探讨了语义收缩的五个步骤并依此来构建地理本体。
其次,在分析了空间数据挖掘的数据预处理阶段存在的问题后,着重关注了数据清理和数据归约。针对数据的不完整性,通过计算数据集中属性对应的本体概念间的语义相似度获得相应的数据集,减少预处理的数据空间;针对数据归约,利用本体表达的分类体系来选择合理的区间或层次,以实现有效的离散或归约。
再次,分析了空间数据挖掘中存在的空间依赖现象并说明闭频繁项集挖掘不能剔除该依赖。在介绍概念格及其产生子等相关概念后,阐述了产生子与空间依赖之间存在的联系,并详细说明了产生子在空间依赖剔除中的应用。提出基于本体语义的最优频繁地理模式挖掘算法,实现了本体语义的应用,以长沙市地理数据为例,验证了算法的有效性。
最后,讨论了本体对用户知识的表达以及本体到数据集的映射,设计规则模式来提取规则并构建相应的提取算子。在定义了规则间的相似度后,提出利用本体语义相似度来计算项相似度以实现规则的提取,实现了本体辅助的规则提取。以河南省统计数据及交通和行政区划数据为例,验证了规则提取方法的效率。