面向大数据的聚类挖掘算法研究
【摘要】:大数据巨大的潜在价值促使大数据挖掘技术的产生,大数据挖掘是指从具有大规模性、高速性和多样性的数据源中挖掘出有价值知识的数据处理过程;如何准确、快速地从大数据中挖掘出有价值的知识是当今的研究热点。本文将面向大数据的聚类挖掘算法作为研究重点,以提高聚类挖掘算法的准确度和效率为研究目标,首先对传统聚类挖掘算法进行改进以提高准确度,然后对改进的聚类算法并行化以提高效率。为了提高聚类的准确度,本文在DBSCAN算法和k-means算法的基础之上,提出了基于密度的增量k-means聚类算法(Density-based Incremental k-means,DBIK-means)。DBIK-means算法首先计算数据点的密度,以密度不小于给定阈值的中心点以及在其密度范围内的点组合成各个基本簇;再依据两个簇中心点之间的距离合并基本簇;最后把没有划分到任意簇的点划分到与其距离最近的簇中。理论分析和基于KDD CUP 99数据集的实验结果表明了该算法能够发现任意形状的簇,对数据点的输入顺序以及参数不敏感,在时间开销仅略有增加的情况下可获得更高的聚类准确度,其总体性能优于k-means。为了提高DBIK-means算法的效率,降低算法的时间复杂度,本文利用分布式数据库来模拟共享存储空间,在云计算Hadoop平台上进行DBIK-means算法的并行化;通过仿真实验进行验证,实验结果表明DBIK-means算法适合大规模数据集的聚类挖掘。本文最后将DBIK-means聚类算法应用于电信客户的分类中,应用结果表明该聚类算法能够较为准确地将大量的电信客户自动划分到若干簇中,为电信运营商针对不同类型的客户制定不同的营销策略提供帮助。