含有时空约束的关联规则挖掘方法研究
【摘要】:关联规则挖掘是数据挖掘的一种类型,是KDD研究中的一个重要研究课题,侧重于确定数据集中不同属性之间的联系,找出满足给定支持度和置信度阈值的多属性之间的依赖关系,在顾客购物分析、仓储规划、网络故障分析等方面的应用有着很高的实用价值,深受国内外学术界和工商界的关注。
大多数算法得到的关联规则事实上都假定无论是时间还是地点都是永远有效的,但这并不能彻底解决现实生活中的许多客观问题。传统的关联规则一般可以回答诸如“购买了牛奶的人有90%购买了糖”之类的问题,但是不能回答“今天购买了柜台1中牛奶的人明天有90%购买了柜台2中的糖”之类的问题,而这类问题也往往是决策者在实际中所关心的。因为很多事情都是和时间因素、空间因素关联着的,这就需要在数据挖掘方法中考虑时间和空间因素,把它们作为约束条件,使研究更接近真实的情形。如果数据库中的每个元组均有其有效时间和空间,那么在数据库中所发现的知识在其有效时空约束内就是有价值的,这种具有时空约束的规则可以更好地描述客观事物,因而也会更有价值。
本文作者在现有的关联规则挖掘方法的基础上,分析了上述形式关联规则的不足,根据实际的应用需求,对它进行了扩展,提出了一种全新的适用于交易数据库的带有时空约束的关联规则挖掘方法SKDM,并给出了相应的算法。在本文的扩展的数据库中,与普通数据库相比,这里的元组先后多了属性值为地址区间和时间区间的有效属性,以体现时空约束。与Apriori算法相比,该方法所用的候选生成方法与Apriori_gen大体相同。不同之处在于,当遍历数据库以进行候选计数时,首先考虑空间约束,假设时间区间相同,然后将两者的相关有效时间进行推广和归并,得出相应的关联规则。
该方法是按照交易个数来遍历项目-空间位置对,找到频繁-项集,经过
哈尔滨工程大学工学硕士学位论文
舀亩亩苗右...翻.曰曰...宙
链接和修剪,得出含有空间约束的关联规则。之后把时间因素加入,并将时
间区间按一定比例延展时间区间,然后再按照不同情况对时间区间进行归并,
运用Apriori算法累计支持数,寻找频繁项集,便得出了含有时间和空间约
束的关联规则。
作者针对关联规则挖掘算法目前发展状况及容易被忽略的时间空间约束
问题,提出了含有时间、空间约束的关联规则挖掘理论SK叭,同时给出了相
应的算法。较其它的基于单一约束的关联规则挖掘方法更先进了一步,综合
考虑了双重约束。
关键词:数据挖掘;关联规则;Apriori算法