基于微粒群算法的关联规则挖掘方法及应用
【摘要】:
近十几年来,数据挖掘技术有了长足的进步,这是快速增长的数据量和日益贫乏的信息量之间矛盾运动的必然结果。关联规则是数据挖掘的重要模式之一,在商业决策方面有着极其重要的应用价值。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式。
微粒群优化算法(PSO)是由Kennedy和Eberhart于1995年提出的一种基于迭代的优化算法,作为群体智能的典型代表,它原理简单、参数少、收敛速度较快并且算法程序实现简单,已被证明是一种行之有效的全局优化方法,表现出了很大的潜力。
金融数据包含了证券交易过程中的实时信息,能够准确地捕捉到证券市场发生的变化过程。通过数据挖掘技术挖掘这些股票数据之间的关联规则,有利于投资者了解各种股票的走势及股票之间的关系,从而做出正确的投资决策。
本文对微粒群算法进行了较为系统地分析和研究,提出了基于动态自适应群体的多种群PSO的改进算法,并将此算法应用到关联规则挖掘中,运用微粒群算法的优势加快挖掘过程,提高挖掘效率,然后将其应用于股票数据,挖掘隐藏在股票数据中的潜在规则,通过实例分析,证明是一种具有实用价值的方法。本文主要包括以下内容:
1、提出了一种基于动态自适应群体的多种群PSO的改进算法。
在此算法中,把微粒随机初始化为n个种群,通过计算每个种群Pg的变化量来动态的调整种群的规模。若某个种群Pg连续多代不发生变化时(或者变化极小),此时就减少进入这个种群的微粒的数量,若某个种群Pg一直处于变化的状态,那么就增加进入这个种群的微粒的数量。对于所有种群来说也是同样的道理,通过计算每个种群的最好位置与所有种群的最好位置的变化量来动态的调整种群的规模,这样就在一定程度上避免个体信息陷入局部最优的危险。
2、提出了一种基于微粒群算法的关联规则挖掘算法。
在本算法中编码方法采用实数编码方式,用一个正整数表示被关联的属性值,微粒群中的微粒由一个实数串来表示,采用实数数组编码后的算法操作就成了对数组的操作。算法中采用两个协同微粒群,属性微粒群和规则微粒群,分别用来挖掘具有最小支持度的频繁项集和由频繁项集产生强关联规则,这样就把关联规则挖掘的两个阶段结合在一起,无须先挖掘出全部频繁项目集然后再提取规则,每个微粒群中通过设定不同的适应度函数来实现。算法只需要扫描一次数据库,在求解的效率和运行时间上有较好的性能。
3、实现了基于PSO的关联规则挖掘算法在股票分析预测中的应用。
目前对于股票数据挖掘的方法大多都是采用Apriori挖掘算法或者其改进算法,虽然可以挖掘到一些规则,但是无法避免Apriori系列算法的固有缺点,而且挖掘到的规则的数量也有限。将基于微粒群算法关联挖掘方法应用于海量股票数据中,通过对原始的股票数据进行处理,不仅可以挖掘出含在交易数据背后的潜在规则,同时也验证了算法的有效性,算法挖掘效率比较高,挖掘到的规则也比较全面。