一种基于PDStream的增量聚类算法研究
【摘要】:聚类分析是数据流挖掘中非常活跃的研究领域,它根据最大化类内相似性和最小化类间相似性的原则,把相似的对象聚在一起而把相异的对象分离。目前已经提出许多聚类算法来发现不同领域中的聚类模式,但很多聚类算法在聚类请求到来时,都是重新开始对整个数据空间的进行聚类,这就提高了算法的时间复杂度,不能很好的适应实时数据流的高速流动和实时响应用户要求的特点。在实时数据流中,数据流的高速流动及其数据量巨大等特点,要求数据流挖掘算法具有比较快的处理速度和实时响应用户的需求。
为了利用已有聚类结果加快聚类速度,提高聚类效率,本文在基于衰减窗口与维度树的实时数据流聚类算法(PDStream)的基础上,提出了一种基于网格和密度维度树的增量式聚类算法(IGDStream)。该算法能够利用前一次聚类的结果,结合当前到达的数据流进行聚类。这种增量聚类是利用密度维度树存储的聚类结果,通过网格的密度更新密度维度树来实现的。该方法避免重新对整个数据流进行处理,以提高挖掘算法的效率。
通过多个数据集的实验表明,本研究所提出的实时数据流增量聚类算法算法能够在噪声干扰下发现数据流中任意形状的聚类,并改善了算法的聚类能力。