基于Hadoop海量数据存储仿真平台的研究与设计
【摘要】:随着全球信息化网络化发展和变革的推进,信息处理工作的客观环境已发生了根本性变化。目前随着各国信息化步伐的加快,要处理的来源数据发生了明显变化,最主要的特点就是数据的传输速率越来越快,信息量越来越大,如何及时有效地存储和处理海量数据,并在大量的数据中准确定位目标数据是摆在当前和将来的信息处理工作中的一道难题,成为信息化建设中的一大瓶颈。
有鉴于此,海量数据存储一直都是热门的研究点,对其研究的课题层出不穷,既包括大文件的存储,也包括系统可靠性、可扩展性和运行速度、管理等,在这些课题推动下,海量数据存储系统也从集中式发展到了分布式,以及后来的网格存储与云存储。Hadoop是一个可靠、高效、可伸缩的分布式系统基础架构,并且是开源、跨平台的,其出现大大推动了云技术、云存储的研究,例如IBM[1]的新研究课题就是在Hadoop上建立新的存储架构。Hadoop还是一种新生的架构,虽然基于其的应用已经有不少,但是却还远远算不上成熟,所以对其存在的不足的研究和优化也存在巨大的空间。对Hadoop的研究对于企业和机构来说,在设计初期需要一个对研究和设计成果进行测试的平台,而这些,显然是不适合在实际的平台上进行的。
基于以上考虑,本人从仿真角度进行考虑,在研究了Hadoop的架构和主要特点之后,设计并实现了一个基于Hadoop海量数据存储的仿真平台,允许用户根据需要进行系统规模设置、使用情况设定、策略制定等各项操作,并使用这些设定进行系统运行仿真,从而得到接近实际使用情况的测试结果,有利于促进包括节能、性能优化、提升稳定性等各类基于Hadoop的研究。
此外,在本系统之上,尝试提出一个新的基于文件热度的多级文件迁移与系统休眠机制,在不显著降低系统性能的情况下对系统能耗进行了大幅度的削减,受限于无法获取实际的Hadoop系统使用日志文件,在此只进行了模拟数据的仿真测试。