基于分布式计算的AP聚类并行化方法研究与应用
【摘要】:聚类是一种基于数据对象的特征对数据集进行聚合的数据挖掘方法,主要目的是聚集相似的数据对象。随着传统互联网及移动互联网的飞速发展,企业和用户产生的数据呈爆炸式增长,面对海量数据时传统的聚类挖掘计算极为耗时,不能有效地满足数据挖掘的时效性需求。因此,为了应对海量数据的处理,算法优化与并行化研究成为热点。AP聚类算法是近几年提出的一种新型的方法,目前已被广泛研究与应用。与K-Means等算法相比,AP聚类不需要预设聚类中心,它把每个数据对象都视为潜在的聚类中心,通过数据对象间相互传递消息自动产生聚类中心。但这种聚类算法的时空复杂度较高,随着数据量的增大,整个计算耗时也迅速增大。为了使AP聚类算法能有效应用于海量数据分析,本文即主要研究并实现AP聚类算法的并行化方法,使聚类算法可在云计算集群环境下自动高效地并行化执行。Hadoop是一种开源的分布式计算框架,基于Google的MapReduce并行化思想将并行化的底层实现细节作了封装,使得开发人员只需关注并行的策略方法。针对Hadoop在处理迭代式算法的不足,Berkeley提出了Spark分布式内存计算框架,通过将数据转化为RDD进行缓存有效提升了迭代式算法的执行性能。本文在分析两种计算平台的特点基础上,首先设计实现了并行的AP聚类算法,并分析了并行算法的性能以及两种平台下并行算法执行的性能差异;再通过KDD99的入侵检测海量数据集的测试实验,表明在两个计算平台下并行AP聚类算法都具有良好的加速比和扩展性,且经由Spark内存计算框架的优化,AP聚类算法的执行可获得更高的效率,更适合海量数据的聚类分析应用。本文最后设计开发了一个基于云计算的聚类分析应用服务平台,即在后台将AP并行聚类等算法的实现无缝集成封装到Hadoop和Spark平台,对外则提供简单易用的Restful服务接口,同时提供可供本地调用的云聚类服务SDK,使开发者可直接调用并行化的聚类算法,有效屏蔽云计算底层实现细节,便于一般开发人员快速应用聚类云计算服务。
|
|
|
|
1 |
吴正娟;职为梅;杨勇;范明;;并行化的粒子群技术[J];微计算机信息;2009年36期 |
2 |
齐书阳;;迎接并行化的明天[J];软件世界;2009年06期 |
3 |
曹琳,杨学军,金国华;两种并行化机制的分析[J];计算机研究与发展;1993年09期 |
4 |
金国华,陈福接;并行化技术与工具[J];计算机研究与发展;1996年07期 |
5 |
蔡立志,童维勤,廖文昭;序列拼装程序的并行化研究与实现[J];计算机工程与应用;2003年14期 |
6 |
王伟;潘建伟;;有限差分法的并行化计算实现[J];电脑知识与技术;2008年07期 |
7 |
程锦松;;迭代法的并行化[J];安徽大学学报(自然科学版);1997年03期 |
8 |
陈再高;王玥;王建国;张殿辉;付梅艳;乔海亮;袁媛;;三维粒子模拟并行化技术研究[J];计算机工程与科学;2009年11期 |
9 |
赵凤治;地震作业数据处理并行化的几个问题[J];计算机系统应用;1994年10期 |
10 |
高嵩,崔西宁;并行化高级语言的实现[J];西安工业学院学报;1997年02期 |
11 |
宋克鑫;陈香兰;陈华平;王篁;;动态二进制翻译的多核并行化中原子指令的翻译研究[J];计算机应用与软件;2013年11期 |
12 |
江岭;刘学军;汤国安;宋效东;;地形分析中坡度坡向算法并行化方法研究[J];计算机工程与科学;2013年04期 |
13 |
武继刚;一个选择算法及其并行化[J];计算机工程与设计;1996年05期 |
14 |
范植华,范路;多岔控制转换的并行化重构[J];电子学报;1999年08期 |
15 |
俞一峻,臧斌宇,施武,朱传琪;自动寻找使多重串行循环并行化的幺模变换[J];软件学报;1999年04期 |
16 |
竹居智久;邱石;;充分发挥并行化优势开拓出新的应用天地[J];电子设计应用;2006年12期 |
17 |
郭克榕,唐新春;基于多层循环并行化的负载平衡优化[J];国防科技大学学报;1997年05期 |
18 |
杨博,王鼎兴,郑纬民;构造并行化系统交互环境的若干关键技术[J];软件学报;2001年05期 |
19 |
常晓东;胡长军;李永红;;化学驱油藏数模并行化中的关键技术[J];微计算机信息;2007年28期 |
20 |
曹磊;程建来;;图像聚类的并行化[J];计算机与现代化;2013年02期 |
|