基于网格的数据流聚类方法研究
【摘要】:近年来,数据采集技术以及数据挖掘技术不断发展,通常在短时间内就可以采集到大量的数据,并加以分析处理。随着信息技术以及Web技术的飞速发展,数据不再是存储于可多次随机访问的介质中的静态数据,而是称之为数据流的动态流式数据。不同于静态数据,数据流具有实时性、连续性、顺序性等特性,因而传统的聚类分析技术无法直接应用于数据流,需要新的聚类分析技术来处理数据流。本文针对数据流聚类技术从多个方面进行了深入细致地研究。
首先,分析了基于网格的聚类算法的优缺点,进而对传统的静态网格划分方法以及动态网格划分方法进行了研究,针对网格聚类算法中数据空间的划分方法进行改进,拟对新的数据空间动态划分策略展开研究,使其可增量地更新网格单元的结构以及统计信息。在此基础上,设计出基于动态网格划分的聚类算法,使得新算法不仅具有传统网格聚类算法的高效性,且在一定程度上提高聚类的质量。
其次,在新的数据空间动态划分策略的基础上,着重针对数据流的增量聚类进行研究。对现有的数据流聚类算法和增量聚类算法的特性以及存在的问题进行分析,针对数据流对聚类算法的实时性等方面的要求以及现有聚类算法对非球形聚类效果不好的缺点,设计一种基于数据流的不规则网格增量聚类算法。使得与其它算法相比,新算法具备传统网格聚类算法处理速度快的优点,同时不断动态增量地调整网格整体结构。并充分利用网格聚类算法的特点,通过判断网格是否相连,保证对于不同形状聚类的聚类效果。在网格聚类时,无需预先指定聚类数目,且对孤立点有较好的鲁棒性。通常包含孤立点的网格单元不会满足稠密度阈值的要求,可以通过剪枝策略进行去除以减少算法复杂性。由于动态划分的网格单元反映了当前数据流的分布特点,新算法应在一定程度上提高聚类的精度。
再次,在分析高维数据聚类方法和维度约简方法以及这两种方法在数据流环境中应用的基础上,针对高维空间数据稀疏性、数据属性重要度倾斜等问题,对粗糙集理论进行研究,拟设计一种基于粗糙集属性约简的数据流增量聚类算法。新算法应针对聚类的无监督特性通过改进后的无决策属性的属性约简方法计算数据点各属性的重要度,并调整属性集。在属性集中增加具有较高重要度属性的同时,淘汰属性集中不再重要的属性。同时,新的约简算法在保证聚类精度的前提下,可动态调整参与聚类的属性集合,提高算法的效率。
最后,对现有的数据流子空间聚类算法进行研究,针对现有子空间聚类算法中效率较低的问题,拟提出一种新的基于区域划分策略的数据流子空间聚类算法,新算法拟采用自底向上的搜索策略,充分考虑数据点在每维上的分布特性,对各维空间进行区域划分,根据区域交叠产生聚类子空间,进而聚类。新算法应具有处理速度快、对孤立点不敏感等优点,可以有效地在高维数据流中识别出子空间聚类。且可根据数据流的变化情况,对区域进行重新划分,以有效地反映数据流的变化。
本文的工作围绕着数据流聚类展开,通过对数据挖掘技术、人工智能技术、粗糙集理论等的研究,并通过仿真实验证明方法的有用性和有效性,为未来的研究工作提供了良好的理论基础和思路。