收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的云存储系统的研究与应用

陈国俊  
【摘要】:近年来,云计算和软件即服务(SaaS)的受关注度越来越高,云存储成为信息存储领域的一个研究热点。大多数现有的云存储系统是建立在分布式文件系统之上的,其中以HDFS分布式文件系统最被行业所接受,因为可以在其存储的海量数据上应用MapReduce编程模型进行数据挖掘,从而更好地发现数据中蕴含的潜在价值的信息。但是,目前HDFS分布式文件系统中存在着NameNode单点故障、备份节点数等问题,从而影响云存储系统的高可用性;并且关联规则挖掘算法中的并行化实现也有待进一步改进和优化。因此,针对以上问题,本文主要完成了以下工作:分析HDFS中NameNode相关的源码,并研究其工作流程和工作机制,提出基于Heartbeat+Avatar Node的HDFS高可用性方案,该方案具有热备和自动切换的特点。并分析AvatarNode的primary和standby角色相关源码,研究其工作流程和工作机制,提出SecondaryAvatarNode方案,从而增加一个轻量级备份节点,进一步提高云存储系统的高可用性。基于CLOSET+算法对PFP算法在挖掘闭频繁项集方面的不足之处进行优化,主要包括:对集群分组方法进行优化使得每个事务组分配得到的事务尽可能的平均,从而使每个并行的任务达到负载均衡;在挖掘的每一次递归过程中,针对稀疏、稠密数据集投影不同的FP-Tree结构,采用自底向上和由上向下相结合的方法,提高挖掘闭频繁项集的效率;通过使用超集检查的性质,提出基于滑动窗口的方式过滤局部的闭频繁项集,从而得到完备的闭频繁项集。通过搭建Hadoop集群实验平台,验证基于Heartbeat+AvatarNode的高可用性方案和SecondaryAvatarNode方案的有效性,同时分析基于CLOSET+算法对PFP算法在挖掘闭频繁项集方面进行改进和优化后的算法的效率,验证其基于Hadoop架构的挖掘闭频繁项集算法具有良好的扩展性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王自强,冯博琴;频繁项集的简洁表示方法研究[J];系统工程理论与实践;2004年07期
2 颜跃进;李舟军;陈火旺;;频繁项集挖掘算法[J];计算机科学;2004年03期
3 刘晓玲,李玉忱;一种利用逻辑“与”运算挖掘频繁项集的算法[J];中国科技信息;2005年15期
4 陈凯 ,冯全源;基于矩阵伪投影策略的频繁项集挖掘方法[J];微计算机信息;2005年23期
5 阮幼林;李庆华;杨世达;;一种基于事务树的快速频繁项集挖掘与更新算法[J];计算机科学;2005年02期
6 袁鼎荣,李波;频繁项集挖掘技术述评[J];广西民族学院学报(自然科学版);2005年01期
7 马猛,倪志伟;基于异集产生频繁项集的研究[J];计算机工程与应用;2005年08期
8 陈慧萍;王建东;王煜;;频繁项集挖掘的研究与进展[J];计算机仿真;2006年04期
9 樊玫;段隆振;陈桂香;黄龙军;;基于事务压缩的频繁项集挖掘和更新算法[J];南昌大学学报(理科版);2006年05期
10 章志明;黄龙军;余敏;黄明和;;一种动态的频繁项集挖掘算法[J];计算机工程;2006年24期
11 王朝辉;王婷婷;;一种快速的频繁项集挖掘算法[J];贵州工业大学学报(自然科学版);2006年06期
12 王春凯;李睿楠;范明;;挖掘正相关的频繁项集[J];计算机应用;2007年01期
13 冯洁;陶宏才;;一种频繁项集的快速挖掘算法[J];微计算机信息;2007年18期
14 陈晓云;胡运发;;N个最频繁项集挖掘算法[J];模式识别与人工智能;2007年04期
15 李刚;董祥军;;多支持度在非频繁项集挖掘中的研究[J];山东轻工业学院学报(自然科学版);2007年03期
16 李刚;王洪国;董祥军;杨越越;郭跃斌;;基于两级多支持度的非频繁项集挖掘方法[J];郑州大学学报(理学版);2007年04期
17 田宏;董爱杰;;基于向量矩阵的频繁项集挖掘算法[J];大连交通大学学报;2008年03期
18 王丹阳;田卫东;胡学钢;;一种有效的并行频繁项集挖掘算法[J];计算机应用研究;2008年11期
19 张忠平;李岩;林志杰;王爱杰;;基于索引数组的频繁项集挖掘算法[J];计算机应用研究;2009年01期
20 张忠平;李岩;杨静;;基于矩阵的频繁项集挖掘算法[J];计算机工程;2009年01期
中国重要会议论文全文数据库 前10条
1 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 邓传国;;频繁项集挖掘与学生素质测评应用研究[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
4 李彤岩;李兴明;;基于分布式关联规则挖掘的告警相关性研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
5 王洪利;冯玉强;;频繁项集挖掘算法Apriori的改进研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
6 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
7 李坤;王永炎;王宏安;;一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 邹远娅;周皓峰;王晨;汪卫;施伯乐;;FSC——利用频繁项集挖掘估算视图大小[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 谢志军;陈红;;EFIM——数据流上频繁项集挖掘的高性能算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前3条
1 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
2 董杰;基于位表的关联规则挖掘及关联分类研究[D];大连理工大学;2009年
3 贾彩燕;关联规则挖掘的取样复杂性分析[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前10条
1 郭静;最大和最长频繁项集增量更新研究[D];燕山大学;2010年
2 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
3 王洪波;基于矩阵的频繁项集挖掘算法研究[D];兰州大学;2007年
4 王春凯;挖掘正相关的频繁项集[D];郑州大学;2007年
5 李伟民;基于频繁项集的马尔可夫网构建及其系统设计与实现[D];云南大学;2012年
6 宛婉;基于抽样的云频繁项集挖掘算法研究[D];合肥工业大学;2013年
7 熊金芬;一种高效频繁项集挖掘算法的研究[D];哈尔滨工程大学;2006年
8 王春丽;基于频繁项集的互补替代关系挖掘算法[D];郑州大学;2011年
9 冯沙沙;基于位表的频繁项集挖掘算法研究[D];燕山大学;2012年
10 姚晓玲;快速频繁项集挖掘算法研究[D];湖南大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978