商业银行大数据分析平台的设计与实现
【摘要】:商业银行实际上就是一家大数据公司,未来的一个转型方向是成为数据驱动而非资金驱动的公司。银行的数据属于高度保密的敏感信息,如果利用得当,可以成为银行的一个金矿。在整个企业范围内将数据信息作为资产进行管理和利用,促进企业的创新和转型,我们才能提高银行的竞争优势。商业银行应当如何采集数据、利用数据、自助分析数据、构建独特的竞争优势,开启迈向未来智慧金融的进化之门?这是本课题研究的意义及目的。首先,针对上述背景和问题,本文研究了大数据技术的原理。结合生产需求设计并搭建了基于Hadoop和Spark的大数据分析平台,具备通用性、稳定性,包含了离线批处理、实时流处理等功能。然后,设计并实现了离线计算模块。这部分中首先研究了关系型数据库的数据最佳采集方案;在数据清洗过程中,重点研究了Hive中如何实现数据去重的方法;通过Python实现了HiveQL查询数据仓库的表,然后与Mysql及OLAP结合对外提供数据分析服务的功能,另外还提出了OLAP数据模型优化思路。接下来,设计并实现了实时计算模块。主要研究的是服务器实时日志流进行转换、采集、计算等流程如何实现,重点设计了Flume+Kafka+Spark Streaming的架构以及无丢失获取Kafka数据的方法。此外还详细研究了Spark Streaming中generateJobs实时处理的方法。最后,研究设计了基于ECharts的数据可视化模块,并通过结合JavaScript、Ajax、PHP等技术来具体实现。经过测试,系统的功能和性能符合设计需求。目前,该系统已经在实际生产中开展应用,并取得了不错的效果。