收藏本站
《南京师范大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

HDFS中文件存储优化的相关技术研究

张丹  
【摘要】:面对不断增长的海量数据,目前计算机领域提出了一种新的计算模式--云计算,Hadoop是一个可实现大规模分布式计算的开源框架,具有高吞吐量、高可靠性、高可伸缩性等优点,因此被广泛应用在云计算领域。Hadoop中的分布式文件系统HDFS是被设计成适合运行在通用硬件上的分布式文件系统,它是一个高度容错的系统,可以部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,并能够以流的方式读取文件系统中的数据。 但是作为一个正在不断发展中的分布式文件系统,HDFS也不可避免的存在一些文件数据存储方面的缺陷。例如HDFS在数据副本存储时,是在机架上随机选择Datanode进行存储,可能导致Datanode负载不均衡,从而影响整个系统的性能:并且HDFS最初是被设计用来流式的存储大文件,未对小文件的存储进行优化,因此在处理小文件时性能十分低下。本文首先对分布式文件系统的发展做一些简要的介绍,然后深入分析了HDFS分布式文件系统,包括其架构、元数据管理、以及文件读写流程等,并且分析了现有的解决HDFS数据存储及小文件存储的一些方案的性能以及不足。本文的主要创新点如下: 1、针对在机架上随机选择Datanode进行数据副本存储时,可能导致Datanode负载不均衡等问题,提出了采用多目标优化技术,基于Datanode的当前运行状态,寻找综合条件最优的Datanode进行数据存储的方法。该方法使得数据副本均衡的存储在Datanode中,也可以提高数据读写的性能。 2、实际的应用中会产生大量的小文件,针对HDFS存储小文件的不足,提出了小文件合并和Client端缓存小文件等策略。在Client端将小文件合并成若干大文件后,将大文件及相关元数据一同存储到HDFS中;在读取某个小文件时,Client端缓存从Datanode返回的包含该小文件的整个大文件,再次读取该小文件,或者大文件中的其它小文件时,可以直接从Client端读取。减少了Client端向Namenode频繁请求元数据的次数,也减少了Client端向Datanode频繁请求数据块的次数,大大降低小文件的存取时间。
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP316.4;TP333

【参考文献】
中国期刊全文数据库 前1条
1 周轶男;王宇;;Hadoop文件系统性能分析[J];电子技术;2011年05期
【共引文献】
中国期刊全文数据库 前9条
1 朱颂;;分布式文件系统HDFS的分析[J];福建电脑;2012年04期
2 李红;;基于Google Bigtable的海量数据存储探索[J];鞍山师范学院学报;2013年04期
3 许云峰;张妍;赵铁军;;基于云计算的商业情报采集系统[J];河北科技大学学报;2012年02期
4 王芳;;分布式海量数据库之SET模型[J];计算机与现代化;2013年10期
5 罗香玉;汪芸;陈笑梅;;存储系统负载平衡机制的评价与分析[J];计算机科学;2013年09期
6 夏秀峰;赵小磊;孔庆云;;MBE与大数据给PDM带来的思考[J];制造业自动化;2013年20期
7 余辉;王笑梅;;基于MapReduce的HITS算法的实现[J];上海师范大学学报(自然科学版);2013年05期
8 夏上云;王旻超;张惠然;戴东波;谢江;李青;张武;;基于KVM虚拟化技术的Hadoop架构[J];微电子学与计算机;2013年03期
9 田文洪;孙夏爽;蒋亚秋;王浩严;;CRESS:基础资源共享的教育云平台(英文)[J];中国通信;2013年09期
中国博士学位论文全文数据库 前1条
1 胡德鹏;基于农业本体问句分析的问答系统研究与架构设计[D];中国农业科学院;2013年
中国硕士学位论文全文数据库 前10条
1 吴娟;一个视频网站数据统计系统的设计与实现[D];南京大学;2012年
2 宋爱青;基于Hadoop的日志分析系统的设计与实现[D];中国地质大学(北京);2012年
3 李俊杰;分布式高可靠性海量数据处理系统中控节点设计与实现[D];电子科技大学;2012年
4 王欣;基于分布式ETL的电子政务决策系统设计和实现[D];复旦大学;2012年
5 尹立松;基于MapReduce和编程方式的ETL框架研究与应用[D];东华大学;2013年
6 童明;基于HDFS的分布式存储研究与应用[D];华中科技大学;2012年
7 吕培培;云计算环境的数据存储管控技术研究[D];北方工业大学;2013年
8 冀单单;基于互联网的数字音乐盗版检测技术应用研究[D];北方工业大学;2013年
9 杨浩;云GIS空间数据存储管理和共享研究[D];中国地质大学(北京);2013年
10 李延光;基于Hadoop的海量工程数据处理技术研究[D];北京交通大学;2013年
【相似文献】
中国期刊全文数据库 前10条
1 陈建荣;傅黎;;Novell网络环境下分布式文件系统的设计与实现[J];海军工程大学学报;1993年03期
2 李相娜;曹强;赵旺;魏沁祺;;加快分布式文件系统元数据访问的研究与实现[J];微处理机;2008年02期
3 刘伟;刘露;陈荦;钟志农;;海量遥感影像数据存储技术研究[J];计算机工程;2009年05期
4 何公明;张元涛;;面向数字媒体的高性能分布式存储系统的研究与应用[J];广播电视信息;2009年10期
5 周建强;薛行;徐希豪;杨培根;孙钟秀;;分布式文件系统NDFS的设计和实现[J];计算机研究与发展;1990年07期
6 许春聪;黄小猛;吴诺;孙宁伟;杨广文;;分布式文件系统存储介质评测与分析[J];计算机学报;2010年10期
7 李桂萍;;云计算的两大特性:虚拟化、分布式[J];通信世界;2011年16期
8 张维庆,袁宏春;基于E-mail的分布式文件系统(MDFS)[J];福建电脑;2004年07期
9 黄华,张建刚,许鲁;蓝鲸分布式文件系统的分布式分层资源管理模型[J];计算机研究与发展;2005年06期
10 吴英;谢广军;刘璟;;对等结构的分布式存储系统设计与研究[J];计算机工程与应用;2006年04期
中国重要会议论文全文数据库 前10条
1 陈宁;陈安;周龙骧;;基于Client/Server结构的电力远程MIS的设计与实现[A];第十五届全国数据库学术会议论文集[C];1998年
2 杨小玉;王建平;;基于SuSE Linux Enterprise Desktop的Thin Client操作系统设计[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
3 邢海韬;黄孜祺;肖健;;应用动态管理技术优化海量数据管理[A];广西计算机学会2008年年会论文集[C];2008年
4 洪穗;;微软WINDOWS Server 2003 R2分布式文件系统解决方案分析[A];中国新闻技术工作者联合会2008年学术年会论文集(上)[C];2008年
5 华清;黄林鹏;;基于分片、松耦合的分布式文件系统的设计与实现[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
6 付瑞梅;;基于Client/Server模式的应用[A];内蒙古通信学会2004年邮政年会论文集[C];2004年
7 朱平;朱建涛;高剑刚;蒋金虎;;高性能计算存储关键技术研究[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
8 曹成志;蒲文华;宋长龙;;C语言程序设计教学中利用指针进行链表操作[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
9 崔晋川;常维宝;;信息系统的支持环境[A];中国运筹学会第六届学术交流会论文集(下卷)[C];2000年
10 ;Intelligent Control System of Water Level for Boiler Drum Based on OPC and MATLAB[A];中国自动化学会控制理论专业委员会C卷[C];2011年
中国重要报纸全文数据库 前10条
1 ;分布式文件系统一瞥[N];网络世界;2002年
2 王春海 刘立;分布式文件系统在网络中的应用[N];电脑报;2004年
3 江苏 王志军;BitTorrent:革命性的下载工具[N];电脑报;2003年
4 赵江;文件存储之道网络硬盘之道[N];中国电脑教育报;2004年
5 清水 编译;基于文件存储大行其道[N];计算机世界;2011年
6 高;SonicWALL VPN Client 一触即连接[N];中国计算机报;2003年
7 本报记者 郭平;Isilon扩充文件存储产品线[N];计算机世界;2009年
8 本报记者 于翔;“大数据”的大承诺[N];网络世界;2010年
9 ;HP ProLiant工业标准服务器全攻略之一[N];中国计算机报;2004年
10 ;汪成为院士的十二个问题[N];光明日报;2000年
中国博士学位论文全文数据库 前10条
1 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年
2 李彭军;医学影像云服务平台基础架构研究与实践[D];南方医科大学;2011年
3 林琳;基于网格数据交换区的网格作业性能优化[D];吉林大学;2011年
4 黄华;蓝鲸分布式文件系统的资源管理[D];中国科学院研究生院(计算技术研究所);2005年
5 杨永全;饮食健康中的食物体积估算云计算技术研究[D];中国海洋大学;2013年
6 涂旭东;基于对象的并行文件系统接口语义扩展研究[D];华中科技大学;2011年
7 李冰;云计算环境下动态资源管理关键技术研究[D];北京邮电大学;2012年
8 谢高岗;IP网络性能测量技术研究[D];湖南大学;2002年
9 姚继锋;科学计算可视化系统及非张量积区域HFFT算法[D];中国科学院研究生院(软件研究所);2004年
10 王刚;顾及要素特征的层次增量分块矢量数据组织与高效网络传输研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 张丹;HDFS中文件存储优化的相关技术研究[D];南京师范大学;2013年
2 江柳;HDFS下小文件存储优化相关技术研究[D];北京邮电大学;2011年
3 龚高晟;通用分布式文件系统的研究与改进[D];华南理工大学;2010年
4 许敏;分布式文件系统容错机制的研究与实现[D];电子科技大学;2012年
5 景蕊;分布式文件系统下数据校验策略的研究与改进[D];吉林大学;2013年
6 彭龙;分布式文件系统CeipFS的设计与实现[D];国防科学技术大学;2011年
7 张轶彬;分布式文件系统客户端的设计与实现[D];上海交通大学;2011年
8 张宇;基于对象存储的分布式小文件系统的研究与设计[D];清华大学;2012年
9 李书鹏;分布式文件系统在云存储环境下的若干问题研究[D];中国科学技术大学;2011年
10 周昶;基于对象分布式文件系统的存储缓存研究[D];杭州电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026