收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

关联规则挖掘的并行化算法研究

刘智勇  
【摘要】:随着信息技术的不断发展,各行各业己经积累了大量的数据,为了将这些数据转化为有用的知识,产生了数据挖掘技术。然而,传统的串行化数据挖掘技术在面对海量数据时效率难以让人满意。并行化技术近年来发展迅速,可以有效提升算法效率,是处理海量数据的利器,因此,使用并行化技术提升数据挖掘算法效率成为时下的研究热点。关联规则挖掘技术是数据挖掘的一个重要分支,主要研究的是事务数据库中有利用价值项之间的关系。频繁项集挖掘是关联规则挖掘中最重要的环节,因此本文中的关联规则挖掘算法其实也是针对如何挖掘频繁模式的频繁模式挖掘算法。关联规则挖掘中的基本算法主要有多候选产生算法(Apriori,划分,抽样等),模式增长算法(FP-growth, HMine, FPMax, Close+等)和垂直格式算法(Eclat, CHARM等)。本文旨在将部分关联规则挖掘算法与并行计算技术相结合,介绍若干个关联规则挖掘算法的并行化方案。本文分别探讨了基于CPU、GPU和分布式环境下的并行关联规则挖掘算法,介绍了相关的并行化技术,并对本文中用到的两个重要技术GPU-CUDA并行计算框架和MapReduce-Spark并行计算框架做了详细介绍。FP-growth算法是一种基于内存的频繁模式挖掘算法。然而,当数据集很大或者支持度阈值太小时,构造基于主存的全局频繁模式树是不现实的。FP-growth算法扩展化方案将大数据集切分成小数据集,然后通过在这些小数据集执行FP-growth算法来解决此问题。本文在分析研究FP-growth算法扩展化方案的基础上,采用并行投影的核心思想,介绍了一种简单分组算法。在考虑节点间负载均衡的基础上,对简单分组算法改进,介绍了一种负载均衡的分组算法。基于上述分组算法,实现了基于Spark的并行FP-growth算法-Spark-FP-growth算法,该算法通过分组算法将大数据集切分成小数据集,然后分别在小数据集上并行执行FP-growth算法得到频繁项集。为了进一步提升算法效率,本文又引入Topk聚集的思想,将小数据集上的FP-growth算法提升为Topk-FP-growth算法,加强了算法的可用性和速度性能。基于上述算法,本文又研究了关联规则挖掘算法在Spark-GPU平台上的并行化方案。在分析研究众多Spark和GPU融合技术的基础上,采用Spark RDD pipe接口调用GPU-CUDA程序实现Spark和GPU的结合。基于Spark-GPU平台的关联规则挖掘算法-Spark-GPU-Apriori算法依然采用Spark-FP-growth算法的分组模型,但将小数据上的FP-growth算法替换为使用CUDA加速的Apriori算法。Spark-GPU-Apriori算法展现了一种涵盖多种并行级别,将Spark和GPU有机结合的并行关联规则挖掘算法。以Spark-Apriori算法和Spark-mblib-FP-growth算法作为基准算法。本文分别测试对比了Spark-SPFP-growth算法、Spark-BPFP-growth算法和Spark-GPU-Apriori算法的速度性能和扩展性性能。实验结果表明:Spark-FP-growth算法在速度性能和扩展性性能方面均明显优于Spark-Apriori算法,在大型数据集和低支持度情况下也优于Spark-mblib-FP-growth算法。Spark-GPU-Apriori算法在速度性能和扩展性性能方面优于Spark-Apriori算法,但比Spark-mblib-FP-growth算法稍差。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吴正娟;职为梅;杨勇;范明;;并行化的粒子群技术[J];微计算机信息;2009年36期
2 齐书阳;;迎接并行化的明天[J];软件世界;2009年06期
3 曹琳,杨学军,金国华;两种并行化机制的分析[J];计算机研究与发展;1993年09期
4 金国华,陈福接;并行化技术与工具[J];计算机研究与发展;1996年07期
5 蔡立志,童维勤,廖文昭;序列拼装程序的并行化研究与实现[J];计算机工程与应用;2003年14期
6 王伟;潘建伟;;有限差分法的并行化计算实现[J];电脑知识与技术;2008年07期
7 程锦松;;迭代法的并行化[J];安徽大学学报(自然科学版);1997年03期
8 陈再高;王玥;王建国;张殿辉;付梅艳;乔海亮;袁媛;;三维粒子模拟并行化技术研究[J];计算机工程与科学;2009年11期
9 赵凤治;地震作业数据处理并行化的几个问题[J];计算机系统应用;1994年10期
10 高嵩,崔西宁;并行化高级语言的实现[J];西安工业学院学报;1997年02期
11 宋克鑫;陈香兰;陈华平;王篁;;动态二进制翻译的多核并行化中原子指令的翻译研究[J];计算机应用与软件;2013年11期
12 江岭;刘学军;汤国安;宋效东;;地形分析中坡度坡向算法并行化方法研究[J];计算机工程与科学;2013年04期
13 武继刚;一个选择算法及其并行化[J];计算机工程与设计;1996年05期
14 范植华,范路;多岔控制转换的并行化重构[J];电子学报;1999年08期
15 俞一峻,臧斌宇,施武,朱传琪;自动寻找使多重串行循环并行化的幺模变换[J];软件学报;1999年04期
16 竹居智久;邱石;;充分发挥并行化优势开拓出新的应用天地[J];电子设计应用;2006年12期
17 郭克榕,唐新春;基于多层循环并行化的负载平衡优化[J];国防科技大学学报;1997年05期
18 杨博,王鼎兴,郑纬民;构造并行化系统交互环境的若干关键技术[J];软件学报;2001年05期
19 常晓东;胡长军;李永红;;化学驱油藏数模并行化中的关键技术[J];微计算机信息;2007年28期
20 曹磊;程建来;;图像聚类的并行化[J];计算机与现代化;2013年02期
中国重要会议论文全文数据库 前7条
1 兰彤;冯玉才;肖伟器;;空间连接处理的并行化研究[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
2 张雯;骆志刚;赵翔;王金华;靳新;;剪接比对软件sim4的并行化研究与实现[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
3 王本龙;龚凯;刘桦;;自由表面流动问题的并行化SPH方法求解[A];中国力学学会学术大会'2009论文摘要集[C];2009年
4 王峰;杨建俊;张天爵;许淑艳;;不同操作平台上的MCNP并行化计算[A];中国原子能科学研究院年报 2009[C];2010年
5 徐金秀;张天刚;;NCC区域气候模式算法分析及并行化实现[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
6 陈皓;罗月童;刘晓平;;基于MPI的光子映射算法并行化[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 曹琰;王清贤;魏强;尹中旭;;基于相容和搜索结合的并行约束求解方法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年
中国博士学位论文全文数据库 前6条
1 郭琦;异构多核可重构平台指令并行化关键问题研究[D];中国科学技术大学;2015年
2 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年
3 丁晓宁;面向CFD的交互式并行化技术研究[D];西北工业大学;2002年
4 张平;并行化编译器中并行程序自动生成和性能优化技术研究[D];解放军信息工程大学;2006年
5 傅游;稀薄气体Monte Carlo数值仿真并行化技术研究与实现[D];西北工业大学;2002年
6 董春丽;并行化编译中数据和计算的自动划分及优化技术研究[D];解放军信息工程大学;2007年
中国硕士学位论文全文数据库 前10条
1 荣卓波;基于Hadoop的并行化算法实现及GPS数据实例分析[D];西南大学;2015年
2 赖梓昌;基于MPCore多核并行化的宽景视觉研究与实现[D];西南交通大学;2015年
3 杨睿;基于并行计算的基因序列快速比对方法研究[D];浙江大学;2015年
4 王心阳;一种基于MapReduce模型的并行化TSP算法研究[D];电子科技大学;2015年
5 赵正委;基于BSP模型的网络最大流算法的并行化研究与实现[D];电子科技大学;2014年
6 康少华;空间碎片探测软件的并行化及WCRT分析[D];北京理工大学;2015年
7 王向辉;嵌入式浏览器并行化的研究与设计[D];电子科技大学;2014年
8 孙洁;用于超电大散射计算MLFMA并行化及其关键问题的研究[D];电子科技大学;2014年
9 刘毅;LTE系统中关键算法的研究[D];电子科技大学;2014年
10 李京竹;基于云计算的智能交通系统数据预处理与并行化技术研究[D];国防科学技术大学;2013年
中国重要报纸全文数据库 前3条
1 ;服务器软件的并行化革命[N];网络世界;2006年
2 谢涛;英特尔:忽视并行化软件后果很危险[N];电脑商报;2008年
3 记者 鲁媛媛;英特尔软件进入并行时代[N];网络世界;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978