收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

太阳望远镜海量数据存储关键技术研究

刘应波  
【摘要】:当前天文数据处理技术已经进入了数据密集型的天文信息学时代,大数据是比较典型的特征。在太阳观测中,具体表现为数据量庞大、数据采集速率高和数据连续性增长。传统的本地存储技术,例如DAS,以及网络存储技术,例如NAS以及SAN等,在天文大数据存储、处理和管理的需求背景下,表现出诸多的局限性,这些局限性为很多科研活动的开展带来不便。以海量数据为基础的现代天文观测迫切需要先进的大数据处理技术来加快数据的处理,例如MapReduce,为了支持这些处理技术的应用,存储系统需要能够提供高性能、可扩展的并发读写能力和具备海量天文数据的管理能力。 一米新真空红外太阳望远镜(The1m New Vacuum Solar Telescope-NVST)已经投入运行,采用高速度、多通道、多终端的数据采集模式,目前已经产生了超过200TB的太阳观测数据。在观测条件理想时,光球和色球两个通道同时观测,当前色球通道和光球通道能够分别达到每小时60GB和190GB的高速采集速率,按照8小时观测时长计算,一天能够产生2TB(Terabytes)左右的观测数据。随着NVST高分辨率成像系统对数据的时间和空间分辨率要求的提高,未来更多通道并发工作时,单向写入速度能够达到每秒TB量级。如果考虑到实时的数据处理,这个速度还要翻倍。在这样的速度下,单机硬盘存储已难以满足NVST持续、高速的数据写入。当前一些主流存储技术,例如固态硬盘,因为成本,读写次数有限等因素限制它们在太阳观测中的应用,这极大地限制了NVST的科研产出。 另外,传统的数据存储关键技术,例如本地文件系统Ext3、Ext4以及新兴的文件系统ZFS等已难以满足太阳观测中高速的并发数据读写需求;基于关系型数据库的数据管理技术也不能很好的应对NVST海量数据管理的需要。面对这些问题,就迫切需要寻求能够管理海量数据,具有高性能、高扩展性以及能适应NVST存储需求动态变化和支持高速数据处理的存储技术。虽然一些前沿技术,例如基于DAS和SAN的存储整合技术、虚拟化存储技术能够满足这些需要,但是他们的技术复杂、实际部署、配置和管理维护成本较高,也不适合在太阳观测中应用。分布式并行存储技术能够很好地满足这些需求,因为基于分布式的存储能够提供高性能的并发存储并具有良好的横向扩展特性,可以部署在普通的廉价主机上,综合成本、性能和可扩展管理等方面的考虑,分布式存储比较适合NVST多通道多波段观测模式的海量数据存储技术。另外,如何高效快速地检索和查询海量观测数据也是存储管理中具有挑战性的难题,基于分布式的非关系型数据库(NoSQL)数据存储管理技术能够有效应对这些挑战。因此,本论文以分布式存储技术为核心,研究分布式文件系统和基于NoSQL海量数据检索查询技术在太阳观测中的应用,论文主要研究工作包括: 1)分布式文件系统在太阳观测中的应用。通过实验从横向和纵向两方面深入研究了分布式文件系统的存储性能、可扩展性,以及分布式文件系统在太阳观测应用中的可行性;研究了基于FITS文件的存储性能优化,通过Bonding技术在千兆网络环境下单进程能够达到3.4Gb/s的存储速度,满足了NVST当前高速的存储需要;重点研究了分布式文件系统在太阳观测中的应用模式和如何满足异构平台的数据存储需要; 2)研究了太阳FITS元数据和数据在分布式存储中的不一致性问题。在分布式存储环境下,因为高效的数据查询和管理需要,观测的FITS元数据与数据被分离存储。这可能因为短暂的网络、硬盘等故障导致大量的元数据和数据之间的不一致。如何采取有效的保障机制约束元数据和数据之间的一致性是在高速数据存储过程中容易被忽略的问题。本文在这方面进行了研究,分析了不一致性产生的原因,不一致性模型以及应对措施,并提出应用两段提交协议来尽可能保证二者之间的一致性; 3)设计了面向太阳观测的分布式存储系统AstroFS,阐述了它的核心组件设计。其中包括了高性能特性设计,例如,根据太阳观测的要求,放弃多层次树状文件目录,使用两级扁平化的目录存储观测文件;研究设计基于网络的RAID0数据分片技术。对系统中的其它关键技术也进行了详细的分析和设计,例如数据的聚合拆分,数据均衡分布存储,并发以及复制等; 4)通过形式化方法描述了NoSQL存储非结构化FITS文件的通用模式,使用基于压缩的字对齐位图索引算法来对海量天文数据进行索引。设计和实现了一个基于Fastbit的天文观测数据归档系统,该系统具有高效的索引性能和检索效率等优点。 论文研究的面向海量太阳观测数据的分布式存储技术和基于压缩字对齐位图索引技术解决了NVST观测数据的快速存储和高效检索难题,实际应用性较强。研究方法也为未来国内外类似太阳望远镜的存储和海量数据的检索提供了参考,具有一定的应用和推广价值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 邵杰;胡波;杨丽娟;;基于海量数据自动计算装载、分配的方法与装置[J];科协论坛(下半月);2013年07期
2 王小梅;李新明;王帅;;基于博弈思想的副本创建策略研究[J];计算机工程;2012年17期
3 王笑梅;贾晓强;;云计算对高校教育的影响分析[J];科技信息;2010年10期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前2条
1 王海涛;石晶;周立柱;;基于多级存储的海量数据存储系统[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 卢朝霞;习捷;王剑;;基于数据库分区的海量数据存储技术的研究[A];2006中国控制与决策学术年会论文集[C];2006年
中国博士学位论文全文数据库 前2条
1 蒋海波;海量数据存储系统的高可靠性关键技术研究与应用[D];电子科技大学;2013年
2 刘应波;太阳望远镜海量数据存储关键技术研究[D];中国科学院研究生院(云南天文台);2014年
中国硕士学位论文全文数据库 前10条
1 张喜;海量数据存储模式的研究[D];广东工业大学;2012年
2 唐亦鹏;海量数据存储系统的设计与实现[D];哈尔滨工业大学;2014年
3 娄希安;海量数据存储与查询策略的优化研究[D];大连海事大学;2012年
4 田爱雪;基于海量数据存储的性能测试与优化研究[D];长春理工大学;2014年
5 胡学庆;集群环境下海量数据存储管理技术的研究[D];东北石油大学;2010年
6 陈殿伟;基于Hadoop的虚拟筛选海量数据存储及结果处理的设计和实现[D];兰州大学;2012年
7 陈剑锐;基于Hadoop海量数据存储仿真平台的研究与设计[D];华南理工大学;2011年
8 马文杰;基于CAP理论的海量数据存储研究与应用[D];苏州大学;2013年
9 苗帅;海量数据存储与全文检索[D];江苏科技大学;2011年
10 姜治光;基于混合架构的海量数据存储系统的研究与实现[D];北京邮电大学;2014年
中国重要报纸全文数据库 前8条
1 本报记者;多方寻求合作 推动云力量聚黑河[N];黑河日报;2014年
2 ;存储软件市场首现国产身影[N];网络世界;2006年
3 本报记者 刘慧;大数据应用市场可达百亿元规模[N];中国经济时报;2014年
4 记者 李杏;甩掉“差不多先生”的文化标签[N];长江日报;2013年
5 曹云萍;众多上市公司欲分羹[N];人民邮电;2014年
6 本报记者 周源;多数企业谨慎对待云存储[N];网络世界;2010年
7 廖军;大数据时代的有色大数据[N];中国有色金属报;2014年
8 本报记者 陈静;大数据“润物无声”大产业[N];经济日报;2013年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978