收藏本站
《四川师范大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop平台的并行关联规则挖掘算法研究

杨燕霞  
【摘要】:ARM是数据挖掘的一个重要领域,现已经得到广泛应用。随着社会的快速发展,人们的生活水平越来越高,活动越来越频繁,产生的数据量越来越大,有的甚至以PB或TB级增长,面对如此庞大的任务,已有的串行算法如Apriori算法或是传统基于MPI及其他编程模型的并行算法如CD、DD等算法都已经不能胜任。而2004年由Google提出的Hadoop平台解决了传统编程模型不能解决的节点失效问题,同时具有很好的Expansibility,动态负载均衡性,因此研究基于此平台的并行ARM算法迫在眉睫。本文的主要工作如下:1)从理论上证明DHP,Eclat,FP_Growth算法能够基于Hadoop进行并行化改进(详见第3章)。2)对DHP算法,主要从哈希表和F_itemsets的生成两个方面,提出基于Ha doop平台并行改进的策略,得到H_DHP算法,并加以实现。同时借助Hbase数据库将生成的F_itemsets存入其中,提高关联规则的生成效率。然后从运行时间,加速比,可扩展性三个方面对DHP和H_DHP算法进行对比测试。最后在H_DHP有效性验证时将使用小数据进行(详见第4章)。3)对Eclat算法,针对数据垂直分布的特点,提出基于Hadoop平台并行改进的策略,得到H_Eclat算法,加以实现。关联规则的生成及H_Eclat的性能测试和有效验证,基本方法同H_DHP,此处不再赘述。(详见第5章)。4)FP_Growth算法构造TP_Tree时,互不干涉,并且不生成C_itemsets,通过不断增长频繁模式,从而生成F_itemsets。针对它的这些特点,提出了基于Ha doop平台并行改进的策略,得到H_FP_Growth算法,加以实现。关联规则的生成,H_FP_Growth的性能测试、有效性验证等都进行了研究。(详见第6章)。
【学位授予单位】:四川师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13

【引证文献】
中国重要会议论文全文数据库 前1条
1 赵炳;胥光辉;柳旭;李慧冬;;基于Hadoop平台的软件系统的测试研究[A];第十七届全国青年通信学术年会论文集[C];2012年
【参考文献】
中国期刊全文数据库 前10条
1 黄立勤;柳燕煌;;基于MapReduce并行的Apriori算法改进研究[J];福州大学学报(自然科学版);2011年05期
2 张恺;郑晶;;一种基于云计算的新的关联规则Apriori算法[J];甘肃联合大学学报(自然科学版);2012年06期
3 王新宇,杜孝平,谢昆青;FP-growth算法的实现方法研究[J];计算机工程与应用;2004年09期
4 肖劲松,林子禹,毛超;关联规则在零售商业的应用[J];计算机工程;2004年03期
5 谭义红;李学勇;陈治平;;关联规则挖掘在Web信息检索中的应用[J];计算机工程;2006年09期
6 陈国良;孙广中;徐云;吕敏;;并行算法研究方法学[J];计算机学报;2008年09期
7 朱蔷蔷;张桂芸;刘文龙;;基于Hadoop平台上面向电影数据集Kmeans算法的改进[J];哈尔滨师范大学自然科学学报;2012年01期
8 郝晓飞;谭跃生;王静宇;;Hadoop平台上Apriori算法并行化研究与实现[J];计算机与现代化;2013年03期
9 田金兰,张素琴,黄刚;用关联规则方法挖掘保险业务数据中的投资风险规则[J];清华大学学报(自然科学版);2001年01期
10 郭宇红;童云海;唐世渭;杨冬青;;基于FP-Tree的反向频繁项集挖掘[J];软件学报;2008年02期
中国硕士学位论文全文数据库 前5条
1 刘福东;面向MPI程序的进程数据相似性分析与优化技术[D];国防科学技术大学;2010年
2 马飞;数据挖掘中的聚类算法研究[D];南京理工大学;2008年
3 杨柳;基于数据垂直分布的关联规则挖掘算法研究[D];天津理工大学;2009年
4 荀娇;基于粗糙集的关联规则挖掘算法研究[D];山东师范大学;2013年
5 车斌;基于Hadoop海量数据处理关键技术研究[D];电子科技大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 栗晓聪;滕少华;;频繁项集挖掘的Apriori改进算法研究[J];江西师范大学学报(自然科学版);2011年05期
2 冯弟飞;胡圣武;;空间数据挖掘的方法进展及其问题分析[J];测绘科学;2008年S1期
3 冯弟飞;胡圣武;;空间数据挖掘的方法进展及其问题分析[J];测绘科学;2008年S3期
4 陆召连;郭嗣宗;;关联规则在化妆品销售分析中的应用[J];科技和产业;2008年10期
5 肖峻;张晶;朱涛;史常凯;张海平;;基于关联分析的城市用电负荷研究[J];电力系统自动化;2007年17期
6 许珂;;关联挖掘在图书借阅数据库中的应用[J];福建电脑;2006年09期
7 吴学超;;非对称性相关技术应用于商业数据分析的研究[J];福建电脑;2010年12期
8 何宏;肖伟平;郭潇婕;;稀疏矩阵的关联规则挖掘算法研究[J];湖南工程学院学报(自然科学版);2007年01期
9 董萍;;聚类分析在教学评价中的应用[J];湖南工程学院学报(自然科学版);2010年01期
10 郑秋亚;刘三阳;左大海;梁益华;;多块结构化网格CFD并行计算和负载平衡研究[J];工程数学学报;2010年02期
中国博士学位论文全文数据库 前10条
1 龙柏;并行计算平台上的数据索引技术研究[D];中国科学技术大学;2011年
2 方兆宝;基于空间数据挖掘的MCSs时空演变规律研究[D];中国矿业大学(北京);2004年
3 刘扬;基于Web的区域经济增长分析PSE模式与应用研究[D];华东师范大学;2003年
4 黄亦潇;客户知识获取的理论与应用研究[D];电子科技大学;2006年
5 李存荣;产品制造信息中的知识发现及其应用研究[D];武汉理工大学;2006年
6 马军杰;基于数据仓库与联机处理的区域经济发展管理决策支持系统研究[D];华东师范大学;2007年
7 缪裕青;关联规则挖掘及其在基因表达数据中的应用[D];中国科学技术大学;2007年
8 马猛;面向生物数据的关联规则挖掘算法及其应用研究[D];中国科学技术大学;2008年
9 韩颖;新型农村合作医疗数据挖掘研究[D];山西医科大学;2009年
10 马露杰;三维CAD模型形状结构分析方法[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 孙洋;基于免疫遗传算法和粒子群算法的聚类研究[D];长沙理工大学;2010年
2 刘坤朋;数据挖掘中聚类算法的研究[D];长沙理工大学;2010年
3 陈宇晖;基于数据挖掘的入侵检测方法研究[D];长沙理工大学;2010年
4 吴迪;高维空间中基于空间划分的离群点挖掘算法研究[D];河北工程大学;2010年
5 陈智强;自由基聚合反应过程动态分子量分布的并行计算方法研究[D];浙江大学;2011年
6 王瑞军;基于非起伏目标的相参积累TBD方法研究[D];电子科技大学;2011年
7 王小姣;聚类分析及其在Web日志挖掘中的应用研究[D];山东师范大学;2011年
8 李芳芳;个人数据空间管理系统中数据抽取及语义关联构建[D];北京交通大学;2011年
9 王龙;造船厂钢板出库计划并行嵌套优化算法研究[D];大连理工大学;2011年
10 王娜;一种冗余规则删减方法及其应用[D];大连理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘纪远,dls.iogac.on,布和敖斯尔;中国土地利用变化现代过程时空特征的研究──基于卫星遥感数据[J];第四纪研究;2000年03期
2 吴吉义;平玲娣;潘雪增;李卓;;云计算:从概念到平台[J];电信科学;2009年12期
3 张健;;云计算概念和影响力解析[J];电信网技术;2009年01期
4 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
5 罗敏,王丽娜,张焕国;基于无监督聚类的入侵检测方法[J];电子学报;2003年11期
6 万仁霞,陈瑞典;一种改进的Apriori算法[J];福州大学学报(自然科学版);2005年02期
7 陈自力;;一种新的基于幂集的数据挖掘算法[J];甘肃联合大学学报(自然科学版);2011年06期
8 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
9 陈栋,徐洁磐;Knight:一个通用知识挖掘工具[J];计算机研究与发展;1998年04期
10 罗可,吴杰;一种基于Apriori的改进算法[J];计算机工程与应用;2001年22期
中国博士学位论文全文数据库 前5条
1 魏立梅;聚类分析新方法的研究与应用[D];西安电子科技大学;1998年
2 马超飞;基于关联规则的遥感数据挖掘与应用[D];中国科学院研究生院(遥感应用研究所);2002年
3 李学明;计算机数据的关联规则挖掘理论和算法研究[D];重庆大学;2003年
4 沈斌;关联规则相关技术研究[D];浙江大学;2007年
5 官礼和;基于Rough集的不完备信息处理方法研究[D];西南交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 施岩;云计算研究及Hadoop应用程序的开发与测试[D];北京邮电大学;2011年
2 霍树民;基于Hadoop的海量影像数据管理关键技术研究[D];国防科学技术大学;2010年
3 金松昌;基于HDFS的多用户并行文件IO的设计与实现[D];国防科学技术大学;2010年
4 林毅;基于粗集理论的关联规则挖掘的研究[D];广西大学;2004年
5 彭久生;基于粗糙集理论的关联规则挖掘方法研究[D];中南大学;2004年
6 于兴网;粗糙集属性约简算法在数据挖掘中的研究[D];重庆大学;2004年
7 孟增辉;聚类算法研究[D];河北大学;2005年
8 李长源;关联规则挖掘算法研究[D];哈尔滨工程大学;2005年
9 呼延琢;基于决策树算法的数据挖掘的应用[D];西安电子科技大学;2007年
10 史君华;基于粗糙集理论的约简方法研究[D];合肥工业大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 葛磊;武芳;王鹏波;张冬林;;3维建筑综合中基于最小特征的面平移算法[J];测绘科学技术学报;2009年02期
2 骆雯,孙延明,陈振威,陈锦昌;判断点与封闭多边形相对关系的改进算法[J];机械;1999年03期
3 李林;卢显良;;一种基于切割映射的规则冲突消除算法[J];电子学报;2008年02期
4 刘巧玲;张红英;林茂松;;一种简单快速的图像去雾算法[J];计算机应用与软件;2013年07期
5 林亚平,杨小林;快速概率分析进化算法及其性能研究[J];电子学报;2001年02期
6 章郡锋;吴晓红;黄晓强;何小海;;基于暗原色先验去雾的改进算法[J];电视技术;2013年23期
7 杨铁军;靳婷;;一种动态整周模糊值求解算法及其仿真分析[J];系统工程与电子技术;2007年01期
8 周秀玲;郭平;陈宝维;王静;;几种计算超体积算法的比较研究[J];计算机工程;2011年03期
9 吴一戎,胡东辉,彭海良;Chirp Scaling SAR成象算法及其实现[J];电子科学学刊;1995年03期
10 王贵竹;一种产生单向分解值的算法[J];安徽大学学报(自然科学版);2001年03期
中国重要会议论文全文数据库 前10条
1 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年
2 宁春平;田家玮;郭延辉;王影;张英涛;郑桂霞;刘研;;计算机辅助增强、分割算法在鉴别乳腺良、恶性肿块中的应用价值[A];中华医学会第十次全国超声医学学术会议论文汇编[C];2009年
3 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 郑存红;;复杂背景下相关跟踪算法研究及DSP实现[A];中国光学学会2010年光学大会论文集[C];2010年
5 杨文杰;吴军;;RFID抗冲突算法研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
6 高山;毕笃彦;魏娜;;一种基于UPF的小目标TBD算法[A];第十四届全国图象图形学学术会议论文集[C];2008年
7 周磊;张卫华;王晓奇;张军;;基于流水算法的智能路障机器人设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
8 潘巍;李战怀;陈群;索博;李卫榜;;面向MapReduce的非对称分片复制连接算法优化技术研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
9 李伟伟;蔡康颖;郑新;王文成;;3D模型中重复结构的多尺度快速检测算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
10 杨任尔;陈恳;励金祥;;基于棱边方向检测的运动自适应去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中国重要报纸全文数据库 前1条
1 国泰君安资产管理部;“算法交易”是道指暴跌罪魁祸首?[N];上海证券报;2010年
中国博士学位论文全文数据库 前10条
1 冯辉;网络化的并行与分布式优化算法研究及应用[D];复旦大学;2013年
2 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年
3 李琰;基于猫群算法的高光谱遥感森林类型识别研究[D];东北林业大学;2015年
4 陈加顺;海洋环境下聚类算法的研究[D];南京航空航天大学;2014年
5 张冬丽;人工蜂群算法的改进及相关应用研究[D];燕山大学;2014年
6 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
7 王征;分布式互斥算法的研究与实现[D];电子科技大学;2007年
8 王艳娇;人工蜂群算法的研究与应用[D];哈尔滨工程大学;2013年
9 杨世品;P系统优化算法及应用研究[D];浙江大学;2013年
10 张毅;群智能算法的改进及其在相关领域中的应用[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 姚鑫宇;EMD去噪与MUSIC算法在DOA估计中的联合应用[D];昆明理工大学;2015年
2 陆进;面向含噪数据聚类相关算法的研究[D];复旦大学;2014年
3 李家昌;基于能量约束的超声图像自动分割算法[D];华南理工大学;2015年
4 陈坚;基于密度和约束的数据流聚类算法研究[D];兰州大学;2015年
5 高健;基于Zynq7000平台的去雾算法研究及实现[D];南京理工大学;2015年
6 顾磊;基于Hadoop的聚类算法的数据优化及其应用研究[D];南京信息工程大学;2015年
7 杨燕霞;基于Hadoop平台的并行关联规则挖掘算法研究[D];四川师范大学;2015年
8 王羽;基于MapReduce的社区发现算法的设计与实现[D];南京理工大学;2015年
9 许振佳;流式数据的并行聚类算法研究[D];曲阜师范大学;2015年
10 董琴;人工蜂群算法的改进与应用[D];大连海事大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026