基于分布式计算的空间关联模式挖掘和更新方法研究
【摘要】:空间关联模式挖掘是从空间数据库中挖掘人们感兴趣的与空间位置有关的知识的方法之一。随着地理信息技术的发展,人们掌握的空间数据也越来越多,针对海量空间数据的关联模式挖掘存在以下两个主要问题:一是空间数据的存量大,传统的单机空间关联模式挖掘算法已经无法完成挖掘任务;二是空间数据更新频繁,现有的分布式空间关联模式挖掘算法不支持增量更新,从而无法满足当前空间数据快速更新的需求。针对空间关联模式挖掘中数据量大、空间数据更新频繁的问题,本文提出了一种可以增量更新的分布式空间关联模式挖掘算法。该算法由全局空间关联模式挖掘和增量空间关联模式更新两部分组成。全局空间关联模式挖掘的主要思路是:首先采用空间对象的希尔伯特空间填充曲线编码对空间数据进行分割,从而使具有空间自相关性的数据适应分布式计算框架;然后利用空间谓词函数从分布式空间数据集中提取空间事务项集;最后采用分布式计算框架从空间事务项集中挖掘空间关联模式。在增量空间关联模式更新过程中,为了保证在有新的空间数据加入时能够快速的更新空间关联模式,本文在全局空间关联模式挖掘过程中同时保存频繁空间关联模式和部分非频繁的空间关联模式,非频繁的空间关联模式可以缓冲新增的空间数据带来的频繁空间关联模式的变动。每一次增量空间关联模式更新都会根据新增加的数据来更新频繁和非频繁空间关联模式并将频繁空间关联模式返回给用户。空间关联模式的分布式挖掘和更新能够极大的提高计算效率,并且能实时的给用户提供最新的空间知识。最后实验验证了本文设计的可增量更新的分布式空间关联模式挖掘算法的有效性。