最大和最长频繁项集增量更新研究
【摘要】:
数据挖掘是目前数据库研究中的一个热门领域,关联规则挖掘又是数据挖掘中最活跃的分支,而其中发现频繁项集则是关联规则挖掘应用中的关键技术和步骤。现有的频繁项集挖掘算法主要针对静态数据进行,但在现实生活中我们面对的数据常常是动态变化的,比如在线提供的实时服务、大型商场的购物清单,此外基于互联网的很多应用所提供的数据,也都是动态变化的。在动态变化的环境下,传统的频繁项集挖掘算法存在两方面问题,一方面,挖掘得到的频繁项集不能正确反映当前数据的状态;另一方面,由于数据量非常大,过多地扫描数据库使得挖掘效率很低。为此,本文在深入了解数据动态变化情况的同时,还对国内外关于频繁项集挖掘的研究现状进行了综合分析比较,然后选择了两种有代表性的频繁项集进行深入研究。
首先,根据支持度阈值变大和变小两种情况,分别提出了两个改进的最大频繁项集增量更新算法。当支持度变大时,Bigger-SMFIU算法采用逆向判断的方法挖掘新的最大频繁项集。而Smaller-SMFIU算法主要针对支持度变小的情况,从高维到低维依次扫描原来的最大频繁项集,将其分为两种情况分别处理,最终得到更新后的最大频繁项集。
其次,提出了改进的FP-tree,并基于此FP-tree结构提出了一种新的最长频繁项集挖掘算法,考虑事务数据库是随时变化的,接着又详细描述了数据库变大和变小时的最长频繁项集增量更新算法。
最后,通过与已有算法进行对比实验,验证了本文所提出的最大和最长频繁项集增量更新算法的可行性和有效性,并对每个算法的执行效率进行分析和比较。