不确定数据聚类研究
【摘要】:
不确定数据是近年来在传感器网络(WSN)、无线射频识别(RFID)等领域中涌现出来的一类新数据,对不确定数据聚类分析已经成为数据挖掘领域研究的新热点。本文阐述了数据不确定性形成的原因和表现形式,列举已有的不确定数据聚类算法的基本思想和优缺点,通过这些分析了解到,现有不确定数据聚类算法主要是对传统的聚类算法进行扩展而形成的,算法的流程也都是基于经典的确定对象聚类算法流程。
由于数值型数据的聚类问题已经被证实了是NP-难解的组合优化问题,而骨架作为全局最优解的共同部分是获得NP-难解问题启发式算法的有利工具。但是在很多问题中骨架很难获得,近似骨架可以很好的模拟全局最优解,所以对于很多NP-难解问题都采用近似骨架进行算法优化。本文提出了一种基于近似骨架的不确定数据聚类算法框架ABAUDC,主要分为初始聚类产生局部最优解、构造近似骨架和二次聚类三个模块。它采用已有的CKMeans算法作为生成局部最优解的初始聚类算法,简化了对不确定数据对象期望距离的计算。在获得近似骨架后,将约束条件加入到不确定数据集中,并调用SS-UKMeans作为二次聚类算法进行半监督学习。
ABAUDC算法特点:一是具有很好的灵活性,它提供的是一个算法框架,任何现有不确定聚类算法都可以作为它的模块;二是实现简单,利用近似骨架作为约束条件,只需进行简单的相交操作就能缩小二次聚类过程中解的搜索空间,实现算法的快速收敛。为了验证新算法的聚类效果,首先构造了以UCI机器学习库中四个经典数据集为原始点的不确定数据集,然后在各个数据集上进行算法比较。通过平均质量标准对ABAUDC算法和无监督的UKMeans算法的聚类效果进行评估。实验证明,新算法的聚类准确度得到了显著的改善。
新算法的提出,将两个不同领域知识进行了有效的结合,为不确定数据聚类研究工作拓展了思路,同时也为骨架研究找到了新的应用领域。