收藏本站
《北京交通大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

Hadoop平台存储策略的研究与优化

高蓟超  
【摘要】:随着经济、社会以及科学技术的发展,数字信息正在经历爆炸式的增长。信息化和互联网的发展以及廉价的存储设备的出现,为海量信息存储提供了动力和物理基础。数据量比较小的时候,存储和备份数据比较简单,随着数据量达到TB甚至PB级别,存储和备份如此庞大的数据成为一个棘手的问题,而且人们对数据的存储效率和安全性的要求也在不断的提高。如何高效的存储和读取数据成为人们关注的重点,云计算是目前比较成熟的方案,是对数据存储和数据安全的一个有效解决办法,能够提高数据的安全性和存储速度。Hadoop是云计算里面比较流行的框架,具体高可靠性、高效性、高扩展性和高容错性的优势。而且它是开源框架,非常适合科研和应用,所以本文选择Hadoop框架作为云计算的研究对象。 基于如何高效存储海量数据的问题,本文在分析Hadoop的HDFS(Hadoop Distributed File System)原理和存储策略基础上,结合实际应用Hadoop平台遇到的问题,分析其HDFS文件系统数据存储策略的局限和不足,提出了HDFS分布式文件系统的优化存储策略DIFT(Dstat Iostat Free Top)。DIFT存储策略利用更完善的数据节点的状态信息作为策略依据,能够提高集群的磁盘和网络带宽的利用率,减少瓶颈出现的可能性,提高了系统性能,使集群具有更好的负载均衡和用户体验。 本文主要研究内容是:首先对Hadoop的HDFS模型的原理研究和分析,从控制节点、数据节点、文件块的数据结构以及接口、类、方法的调用关系方面详细分析和研究,分析HDFS的运行原理和功能的实现方法。其次从数据结构、状态信息、心跳协议等方面研究和设计DIFT存储策略的实现,最后编译含有DIFT存储策略的Hadoop代码,把DIFT存储策略应用到Hadoop集群上,实验验证和测试策略的效果。DIFT存储策略具有可配置的特性,设计时充分考虑用户实际情况的特殊性,用户可以根据自己实际需求设置符合实际应用的策略配置。实验证明,DIFT存储策略提高了Hadoop的HDFS分布式文件系统的存储效率,使得平台能够高效的处理海量数据的存储。 HDFS分布式文件系统运行在廉价的机器搭建稳定的Hadoop云平台之上,同时配置高效的DIFT存储策略,可以很好的满足实际应用的需求,完全可以作为企业和学校的数据中心的平台。同时具有可配置的存储策略的优化,直接配置符合实际应用的策略和阈值即可,减少了企业和学校开发的周期。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP333

【引证文献】
中国硕士学位论文全文数据库 前2条
1 董其文;基于HDFS的小文件存储方法的研究[D];大连海事大学;2013年
2 杨浩;云GIS空间数据存储管理和共享研究[D];中国地质大学(北京);2013年
【参考文献】
中国期刊全文数据库 前7条
1 田秀霞;周耀君;毕忠勤;彭源;;基于Hadoop架构的分布式计算和存储技术及其应用[J];上海电力学院学报;2011年01期
2 刘永增;张晓景;李先毅;;基于Hadoop/Hive的web日志分析系统的设计[J];广西大学学报(自然科学版);2011年S1期
3 陈文波;张秀娟;李林;唐钧;;基于Hadoop的分布式日志分析系统[J];广西大学学报(自然科学版);2011年S1期
4 董守斌;赵铁柱;;面向搜索引擎的分布式文件系统性能分析[J];华南理工大学学报(自然科学版);2011年04期
5 张兴旺;李晨晖;秦晓珠;;构建于廉价计算机集群上的云存储的研究与初步实现[J];情报杂志;2011年11期
6 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
7 许春玲;张广泉;;分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析[J];苏州大学学报(工科版);2010年04期
【共引文献】
中国期刊全文数据库 前10条
1 魏东泽;来学嘉;;一种安全的高可靠性P2P云存储备份模型初探参考文献[J];信息安全与技术;2011年09期
2 王继鹏;;高等教育云计算服务平台构建策略初探[J];安阳师范学院学报;2011年05期
3 刘真;刘峰;张宝鹏;马飞;高石玉;;云计算模型在铁路大规模数据处理中的应用[J];北京交通大学学报;2010年05期
4 徐小龙;程春玲;熊婧夷;王汝传;;一种基于移动Agent的云端计算任务安全分割与分配算法[J];北京理工大学学报;2011年08期
5 李建卓;;云计算及其发展综述[J];宝鸡文理学院学报(自然科学版);2010年03期
6 董晓霞;吕廷杰;;云计算研究综述及未来发展[J];北京邮电大学学报(社会科学版);2010年05期
7 邓仲华;朱秀芹;;云计算环境下的隐私权保护初探[J];图书与情报;2010年04期
8 马晓亭;陈臣;;基于成本收益分析的云计算环境下数字图书馆建设研究[J];图书与情报;2011年06期
9 朱德新;宋雅娟;;海量数据分析及处理算法实现[J];长春大学学报;2011年08期
10 黄小龙;;浅谈云计算技术在教育领域的应用[J];成功(教育);2011年08期
中国重要会议论文全文数据库 前10条
1 万丹丹;王宏;;云计算在编辑工作中的应用探讨[A];学术期刊编辑学理论与实践[C];2010年
2 郭捷夫;;基于云计算模型的绿色IT数据中心构建方案研究[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
3 汪云凤;李心科;;云服务环境下的服务聚合方法研究[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
4 张白兰;杨向红;李家龙;刘伟;林创燕;邱正能;;物联网综述[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
5 任伟;叶敏;刘宇靓;;云安全的信任管理研究[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
6 周轩;黄璞;;基于云计算的OMS平台移动业务测试系统[A];中国通信学会第六届学术年会论文集(上)[C];2009年
7 唐玲;;云计算及其安全问题的研究[A];Proceedings of 2011 National Teaching Seminar on Cryptography and Information Security(NTS-CIS 2011) Vol.1[C];2011年
8 丁辉;赵炜妹;;基于云计算应用一级部署的研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
9 赵伟;陈承收;李立军;;基于MapReduce云计算模型的碰撞检测算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
10 潘松柏;张云勇;陈清金;魏进武;;云计算安全需求和策略[A];2010年全国通信安全学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 吴吉义;基于DHT的开放对等云存储服务系统研究[D];浙江大学;2011年
2 王铁军;非结构化对等网络资源定位技术研究[D];电子科技大学;2010年
3 江颉;面向电子服务的访问控制关键技术研究[D];浙江大学;2010年
4 张泽华;云计算联盟建模及实现的关键技术研究[D];云南大学;2010年
5 李铮;多媒体云计算平台关键技术研究[D];中国科学技术大学;2011年
6 康俊锋;云计算环境下高分辨率遥感影像存储与高效管理技术研究[D];浙江大学;2011年
7 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年
8 林云;汽车物流服务供应链体系构建与应用研究[D];重庆大学;2011年
9 朱智强;混合云服务安全若干理论与关键技术研究[D];武汉大学;2011年
10 方雷;基于云计算的土地资源服务高效处理平台关键技术探索与研究[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 孔楠;基于云计算平台的商业服务模式研究[D];上海外国语大学;2010年
2 康兴元;面向模具企业的注塑模设计知识网络化管理系统研究[D];大连理工大学;2010年
3 姜健;云计算在企业物资供应系统的应用研究[D];辽宁工程技术大学;2009年
4 薛师;云计算与网格计算的比较研究[D];河南理工大学;2010年
5 刘震宇;基于VMware vSphere4.0的PC服务器资源池构建[D];大连海事大学;2010年
6 梁文迪;一体化资产管理系统中财务模块的设计与实现[D];华南理工大学;2010年
7 胡清;基于云计算的券商网络营销服务平台研究与设计[D];南昌大学;2010年
8 李婵;基于云计算的智能手机数据挖掘平台的架构和实现[D];武汉理工大学;2010年
9 贺鹏;云计算的开发云的研究与实现[D];电子科技大学;2011年
10 李克然;基于云计算的电子商务数据管理模式研究[D];西安电子科技大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 李珺;;基于Hadoop云计算模型探究[J];信息安全与技术;2011年06期
2 蒋景瞳,刘若梅,周旭,贾云鹏;国家标准《地理信息元数据》研制与实现若干问题[J];地理信息世界;2003年05期
3 彭明军,李宗华,杨存吉;WebGIS实现技术及发展研究[J];测绘信息与工程;2001年01期
4 祝方雄;城市地理信息系统中元数据标准的研究[J];城市勘测;2001年03期
5 周成虎;地理信息系统的透视──理论与方法[J];地理学报;1995年S1期
6 李艳华;;云计算技术研究现状综述[J];电脑知识与技术;2009年22期
7 田秀霞;周耀君;毕忠勤;彭源;;基于Hadoop架构的分布式计算和存储技术及其应用[J];上海电力学院学报;2011年01期
8 周轶男;王宇;;Hadoop文件系统性能分析[J];电子技术;2011年05期
9 林伟伟;;一种改进的Hadoop数据放置策略[J];华南理工大学学报(自然科学版);2012年01期
10 罗英伟,邢彭龄;地理信息元数据及系统[J];计算机工程;2004年06期
中国博士学位论文全文数据库 前1条
1 吴金华;空间数据仓库的元数据研究[D];武汉大学;2003年
中国硕士学位论文全文数据库 前10条
1 苗秀;基于云计算平台的移动IPTV系统设计及负载均衡技术的研究[D];北京邮电大学;2011年
2 姜文;基于Hadoop平台的数据分析和应用[D];北京邮电大学;2011年
3 李宽;基于HDFS的分布式Namenode节点模型的研究[D];华南理工大学;2011年
4 邹彩辉;基于Hadoop平台的自适应局部超平面K近邻算法的研究[D];华南理工大学;2011年
5 曾述青;基于PaaS平台电信互联网融合业务的研究[D];华南理工大学;2011年
6 孔舟;分布式虚拟化计算平台高可靠任务拆分系统的设计与实现[D];电子科技大学;2011年
7 王佳隽;基于云计算环境的虚拟化资源管理研究[D];复旦大学;2011年
8 陈璐;基于云计算的海量数据存储技术的研究及应用[D];武汉科技大学;2011年
9 泰冬雪;基于Hadoop的海量小文件处理方法的研究[D];辽宁大学;2011年
10 杨宸铸;基于HADOOP的数据挖掘研究[D];重庆大学;2010年
【二级参考文献】
中国期刊全文数据库 前8条
1 栾亚建;黄翀民;龚高晟;赵铁柱;;Hadoop平台的性能优化研究[J];计算机工程;2010年14期
2 程苗;陈华平;;基于Hadoop的Web日志挖掘[J];计算机工程;2011年11期
3 陆蕊;魏振钢;林欣;徐伶伶;郭曙超;;SAN和NAS融合构架数字档案馆信息存储管理平台[J];计算机应用;2006年S1期
4 张建勋;古志民;郑超;;云计算研究进展综述[J];计算机应用研究;2010年02期
5 刘金芝;余丹;朱率率;;一种新的云存储服务模型研究[J];计算机应用研究;2011年05期
6 刘玉照;刘建准;岳修志;;基于SAN与NAS混合模式的数字图书馆网络存储系统研究[J];图书馆工作与研究;2006年05期
7 高建秀;吴振新;孙硕;;云存储在数字资源长期保存中的应用探讨[J];现代图书情报技术;2010年06期
8 张兴旺;李晨晖;秦晓珠;;云计算环境下大规模数据处理的研究与初步实现[J];现代图书情报技术;2011年04期
中国博士学位论文全文数据库 前1条
1 吴吉义;基于DHT的开放对等云存储服务系统研究[D];浙江大学;2011年
中国硕士学位论文全文数据库 前1条
1 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 王汉林;谢荣传;;Native XML数据库——dbXML的存储策略的改进[J];计算机与现代化;2008年07期
2 罗英伟,邢彭龄;基于XML的地理信息元数据存储策略[J];计算机工程;2004年09期
3 门爱华;;基于关系数据库的XML数据的存储研究[J];赤峰学院学报(自然科学版);2006年03期
4 许丽;杨旭清;;基于关系数据库的RDFS存储研究[J];电脑与电信;2008年03期
5 杨守文;王婷;张国强;;论高校图书馆电子资源存储的经济适用型策略[J];情报探索;2010年04期
6 李占波;李娜;;XML数据在关系数据库中的存储[J];微计算机信息;2007年27期
7 陈光仪;蓝岚;;RDF存储策略的研究与实现[J];现代计算机(专业版);2008年04期
8 李平;胡立栓;孙雪;项彩虹;;基于Web服务的分布式文件系统模型[J];微计算机信息;2010年03期
9 王晓刚;;基于关系数据库的XML存储技术[J];中国高新技术企业;2011年07期
10 李文学;;视频监控数据安全存储策略[J];广播电视信息;2011年06期
中国重要会议论文全文数据库 前10条
1 陈庆章;蔡绍华;陈晓莹;;使用链表实现无线传感器网络的省电数据存储策略[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
2 周志逵;刘菊玲;;Native XML DB存储策略的研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 俞本权;叶锋;王宁;陈滢;王能斌;;同构OIM对象及其存储策略[A];第十五届全国数据库学术会议论文集[C];1998年
4 王宏志;李建中;何震瀛;;一种压缩XML数据仓库的存储策略[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 何震瀛;李建中;王春宇;;一种XML数据库的存储结构——ASRX[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 楼文武;王珊;;数据仓库的综合数据优化存储策略[A];第十五届全国数据库学术会议论文集[C];1998年
7 邹晖华;胡吉全;杨艳芳;;自动化立体仓库货位分配策略优化研究[A];湖北省机械工程学会设计与传动学会、武汉机械设计与传动学会2008年学术年会论文集(2)[C];2008年
8 于利胜;张延松;王珊;张倩;;基于行存储模型的模拟列存储策略研究[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
9 寿志勤;崇大志;;四库建设中的元数据标准的确定与存储实现[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
10 安东洪;刘景鑫;;PACS使用中图像存储问题的探讨[A];中华医学会医学工程学分会第八次学术年会暨《医疗设备信息》创刊20周年庆祝会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 本报记者 郭涛 编译;制定云存储策略应注意的七个问题[N];中国计算机报;2011年
2 郭涛;简约存储 轻快起舞[N];中国计算机报;2003年
3 本报记者 郭平;整合软件与服务[N];计算机世界;2001年
4 本报记者 郭平;承诺背后的努力[N];计算机世界;2001年
5 小菲;追寻技术含量的冲浪者[N];计算机世界;2005年
6 傅蔷;IBM发布系统存储策略定“乾坤”[N];中国工业报;2005年
7 本报记者 郭平;Sun购并STK后的存储策略[N];计算机世界;2005年
8 中南林大理学院 旷岭 国防科大计算机学院 李永进 刘军;版本文件系统的虚拟存储策略[N];中国计算机报;2006年
9 北京亚细亚智业科技有限公司产品经理 张向辉;医疗影像的长期存储策略[N];中国计算机报;2006年
10 马磊;LT04强化IBM存储策略[N];政府采购信息报;2007年
中国博士学位论文全文数据库 前10条
1 董晓明;对象属性控制的存储策略研究[D];华中科技大学;2006年
2 杨希;智能网络磁盘(IND)存储管理方法研究[D];中南大学;2012年
3 王笑蓉;蚁群优化的理论模型及在生产调度中的应用研究[D];浙江大学;2003年
4 秦怀峰;面向感知网的上下文敏感计算技术研究[D];西北工业大学;2006年
5 李晓春;配送中心拣货作业设计与优化[D];暨南大学;2009年
6 吴承文;面向数据库的语义查询技术研究[D];浙江大学;2007年
7 廖伟志;混杂生产过程的混杂Petri网建模及分析技术研究[D];西安电子科技大学;2007年
8 蔚赵春;无线传感器网络中自适应数据存储与kNN查询处理研究[D];复旦大学;2008年
9 赵斌;基于图模型的微博数据分析与管理[D];华东师范大学;2012年
10 李志刚;无线传感器网络分布数据存储策略研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 王洋;仓库管理系统的存储策略研究[D];华中科技大学;2011年
2 高蓟超;Hadoop平台存储策略的研究与优化[D];北京交通大学;2012年
3 朱岩;Hadoop云存储策略的研究与优化[D];广东工业大学;2013年
4 蒋坚鸿;移动计算环境下检查点存储策略的研究[D];哈尔滨工程大学;2012年
5 朱震;内容管理实例设计及其XML存储策略的研究[D];中国科学院研究生院(软件研究所);2003年
6 王光平;一个Native XML数据库——dbXML的存储策略研究与改进[D];西安电子科技大学;2005年
7 朱一戈;流媒体复制存储策略研究[D];解放军信息工程大学;2012年
8 张竞元;会计信息系统灾难防范中的存储策略研究[D];中国海洋大学;2007年
9 陈钒;基于XML技术的数据管理系统的研究[D];河北工业大学;2005年
10 刘清;分布式VOD视频点播系统研究与设计[D];武汉理工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026