金融行业大型分析型数据库集群解决方案

[复制链接]
查看11 | 回复0 | 2020-7-22 10:10:00 | 显示全部楼层 |阅读模式
农业银行作为典型的数据密集型单位,数据的重要性日益凸现:一方面,数据是其信息化的核心,是保障银行正常运转的关键,对数据库系统的稳定性和安全性有着十分苛刻的要求;其次,数据是宝贵的资源和财富,体量增长非常迅速,新构建的数据仓库系统必须具备对新生数据进行及时处理,计算和管理的能力。
农行数据仓库架构由数据来源层,数据处理层,模型指标层,数据集市层,分析展示以及应用门户层组成。l 数据来源层:最下层为数据来源层,数据来源层包括新一代核心银行系统、综合应用系统、客户管理系统、贷记卡、银行卡、电子银行、反洗钱征信和财务系统等78个源系统,分别按照一定时间窗口,进行全量/增量数据加载,要求满足T+1需求。目前,数据来源层共计上万张表,最大表超过千亿行。l 数据处理层:数据处理层由Hadoop构建,完成对数据的抽取,清晰转换以及拉链表的加工。目前,数据处理层每日处理完毕的数据输出达2.5TB左右。数据加工完成之后,加载至模型指标层,即农行数据仓库主库。
l 模型指标层:模型指标层即农行数据仓库,采用GBase 8a MPPCluster构建,其中主库共112个节点,使用双集群组成双活主库,其中每个安全组有2个节点。同组的两个节点,放在不同的机架上,以保证全方位的高可用性。此外,系统部署16台加载机实现集群的数据分发加载任务。数据仓库的双活系统分为主库和备库两个系统。主库对数据进行批量操作,生成原始数据。备库将主库加工后的数据按照时间机制定时将主库加工的数据以表增量的形式进行更新。备库对数据进行批量更新后后向上层数据集市和应用提供联机查询的服务。在数据仓库内部,从功能上可以划分为ODS层,BDS层及GDS层三个逻辑层次。ODS(Operational Data Storage)层即为贴源层,用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致。BDS(Base Data Storage)层全称为基础数据层,主要加工任务为在数据库按照对象的需求建模成功之后,对ODS层的数据进行加工和整理。GDS(GeneralData Storage)即公共数据层,主要目的是为了满足上层应用加工的需求,对BDS层中的数据按照主题或需求进一步进行加工整合,完成轻度数据汇总或宽表加工等任务。目前主库的裸数据量超过2.5PB,每天的增量数据为3TB,共38304张表,最大表5000亿行;库内复杂作业15000多个,涉及SQL语句100000多个;日终加工时间为8小时,T+1时间的双活集群间同步2小时40分钟完成;目前共部署31套集群,共672个节点,裸数据总量超过15PB。l 数据集市层:同时,通过使用GBase 8a MPP Cluster构建了针对上层业务的资负集市,零售集市,个人客户集市,对公客户集市、分行数据集市、运营风控集市、信用风险集市、财务数据集市、广东分行信用预警分析系统以及分析数据集市等各个集市子系统。为了实现数据的高安全、系统的高可用,采用双活集群组成数据仓库。数据仓库主库加工后的数据,通过DBLink方式,由主库传输到集市环境。l 分析展示层:使用特定的计算分析引擎,建立数据模型等方法,完成对数据的挖掘和使用。l 应用展示层:应用展示对数据进行最终的调取使用,以供服务和业务的展开。
价值体现
l 海量数据管理:为用户提供了并行海量复杂数据处理平台,帮助客户形成PB级以上的业务数据单一视图,为客户提供及时高效的数据分析结果;
l 满足监管需求:通过对数据统一的管理与治理,满足上层监管部门对上报监管数据的要求,保证数据的准确性、及时性,完整性;
l 通过数据指导业务:通过数据仓库的建立,对数据在生命周期内有效和高效的管理,证客户接入更全面的业务数据,满足市场营销、内部管理、内外监管的分析业务需求;
l 支撑银行领域数据观念转变:随着数据技术和分析理论的发展,要求银行分析业务必须从抽样数据向全体数据,从绝对到效率,从原因分析到相关性分析转变,数据仓库的建立,很好的支撑了这种转变,使理论成为现实;
l 创新的大数据平台架构:将MPP数据库技术和Hadoop技术的混合使用并搭建组成大数据平台,是金融行业的大数据技术架构和应用的创新,荣获银监会二等奖。 目前农行的大数据平台服务器数量已经达到1000台左右,其中MPP支撑结构化数据达5PB,是国内金融行业最大的数据仓库和大数据平台。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行