收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的并行关联规则算法研究

余楚礼  
【摘要】:在数据挖掘中,关联规则的挖掘是一个非常重要的研究方向。关联规则算法处理的对象基本是大型数据库,计算量和I/O量非常大。大型数据库的数据通常达到了TB级甚至PB级。处理这样庞大的数据集,串行算法不能满足及时处理的要求,因此,研究适合的并行算法是必须的。传统的并行计算一般基于MPI(Message Passing Interface)实现的。基于MPI实现的平台无法处理节点失效,而节点失效对于由普通计算机组成的集群来说很难避免。 Google在2004年提出的MapReduce架构能处理节点失效。MapReduce是云计算的主要基础架构。MapRedue通过把数据划分为很多块,启动多个map同时处理实现并行计算。Hadoop是MapReduce架构的开源实现。本文提出基于Hadoop的并行关联规则算法.本文提出的Hadoop的并行关联规则算法是在并行关联规则算法CD(计数分布)算法基础上实现的。对CD算法进行了改进,主要是从频繁项集推出候选集的计算只需有主进程计算一遍,候选集频度统计也只需由主进程计算一遍。 为了评估算法的性能。编写了一个基于Hadoop的并行关联规则挖掘程序。搭建了一个基本的Hadoop平台。通过改变系统map能力配置和数据集规模,运行评估计算。实验结果表明,基于Hadoop的并行关联规则算法在处理超大规模的数据集时具有优势。在处理小规模的数据集时,由于每次计算集群部署和退出任务要花掉一些时间,计算资源浪费比较严重,因此基于Hadoop的并行关联规则算法不太适合小规模数据集的计算。由于Hadoop平台本身能够处理节点失效,因此基于Hadoop平台的并行关联规则算法也能够避免节点失效。从试验时的监控输出来看,基于Hadoop的并行关联规则算法做到了动态负载均衡。 理论和试验表明,基于Hadoop的并行关联规则算法能够处理节点失效,能够做到动态负载均衡,能够适应挖掘超大规模数据集的关联规则。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王波;王瀚波;;关联规则数据挖掘算法浅析[J];科技情报开发与经济;2006年19期
2 陈娟;;构建基于关联规则的网络行为挖掘系统[J];科学技术与工程;2007年13期
3 郑传生;蔡伟鸿;;一种关联规则挖掘算法及其在医疗信息挖掘中的应用[J];计算机与现代化;2007年07期
4 王路漫;潘春华;林文清;;多维关联规则算法在数字图书馆中的应用[J];内蒙古师范大学学报(自然科学汉文版);2008年02期
5 张志锋;邓璐娟;刘秀梅;;关联规则算法在邮政商函客户关系中的应用[J];计算机技术与发展;2008年12期
6 洪祥波;;数据挖掘技术在医药ERP系统中的应用[J];科技信息;2008年35期
7 吴佳佳;;关联规则算法在高职教学评价中的应用[J];信息与电脑(理论版);2010年04期
8 范文建;戴齐;陈明;;基于粗糙集的关联规则算法的研究[J];福建电脑;2006年04期
9 刘凯;赵跃龙;;关联规则挖掘在医保稽查中的应用研究[J];科技信息(科学教研);2007年33期
10 曾志勇;;基于星型模型的关联规则挖掘方法[J];现代计算机(专业版);2007年11期
11 韩开来;柳炳祥;;关联规则在图书馆新书推荐中的研究[J];科技信息(学术研究);2007年34期
12 耿新青;娄亚斌;张恩胜;;一种基于哈希技术的文本关联规则算法[J];鞍山师范学院学报;2007年06期
13 徐德军;国实;吴同;;关联规则中兴趣度阈值的应用研究[J];科技信息(学术研究);2008年26期
14 宫晓璐;;一种改进的增量关联规则算法[J];现代计算机(专业版);2009年03期
15 徐健;;数据挖掘技术在高校新生注册管理系统中的应用[J];中国科技信息;2009年18期
16 汤震;;商务智能系统中两种改进的关联规则挖掘算法[J];华北水利水电学院学报;2009年05期
17 孟庆川;陈晓明;;基于关联规则Web日志挖掘算法的研究[J];信息技术;2010年03期
18 吴佳佳;;关联规则算法在教学评价中的研究与应用[J];科技信息;2010年07期
19 傅国强;郭向勇;;动态加权关联规则算法的分析与实现[J];计算机工程;2010年23期
20 许普乐;;关联规则算法在教务管理信息系统中的应用[J];芜湖职业技术学院学报;2010年04期
中国重要会议论文全文数据库 前6条
1 肖利;金远平;徐宏炳;王能斌;;基于关系操作的挖掘广义关联规则算法[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
2 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
5 谷俊杰;梁丽博;;基于关联规则的超临界锅炉水煤比分析[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
6 林佳烨;;云计算在电信行业数据分析领域的应用[A];广东通信2010青年论坛优秀论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 康俊锋;云计算环境下高分辨率遥感影像存储与高效管理技术研究[D];浙江大学;2011年
2 史恒亮;云计算任务调度研究[D];南京理工大学;2012年
3 霍旭光;基于云计算的大规模地形数据处理方法的研究[D];中国地质大学(北京);2013年
中国硕士学位论文全文数据库 前10条
1 余楚礼;基于Hadoop的并行关联规则算法研究[D];天津理工大学;2011年
2 杨新月;云计算环境下关联规则算法的研究[D];电子科技大学;2011年
3 王磊;关联规则算法的研究及在海岸线分类中的应用[D];青岛大学;2012年
4 吴斌荣;可拓关联规则算法的研究及其在教学质量评价中的应用[D];天津师范大学;2011年
5 谭斌;基于服务的数据挖掘关联规则技术的研究[D];湖北工业大学;2012年
6 唐新宇;基于关联规则算法的高职院校教学评价系统的设计与实现[D];华南理工大学;2011年
7 王凯;关联规则算法及其在智能药房系统中的应用研究[D];南京理工大学;2012年
8 曹路舟;关联规则算法在高职院校贫困生认定工作中的应用[D];安徽大学;2011年
9 彭元辉;基于关联规则算法的校园网络安全审计系统的研究[D];中南大学;2011年
10 吕刚;基于关联规则算法的中职教务管理系统应用与研究[D];苏州大学;2012年
中国重要报纸全文数据库 前3条
1 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
2 本报记者 马文方;Hadoop:云中起舞的小象[N];中国计算机报;2010年
3 本报记者 刘洪宇;Hadoop的中国前途[N];中国计算机报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978