1. 程式人生 > >恆豐銀行基於大資料平臺構建資料倉庫的研究與實踐

恆豐銀行基於大資料平臺構建資料倉庫的研究與實踐

恆豐銀行原傳統資料倉庫是建立在IOE(IBM、ORACLE、EMC)傳統架構體系上,已接入資料來源系統有30多個,配套建立監管資料集市、資料分析集市,風險資料集市三個主要資料集市,負責十幾個管理應用和監管系統的資料需求,下游建有銀行管理類系統如綜合經營分析系統(管理駕駛艙)、自定義查詢平臺等,併為各分行提供資料下發服務。

隨著恆豐銀行各類業務快速發展以及與外部機構跨界合作的展開,歷史資料越來越多,半結構化資料、非結構資料也越來越多,資料的統一儲存和處理面臨硬體成本和訪問壓力等問題,原有的技術架構體系越來越不適應業務發展要求無法滿足金融科技環境下銀行對大資料的應用創新需求。

本文根據恆豐銀行在大資料平臺建設經驗上提供解決上述問題的實踐案例,案例中在技術架構上大資料技術可以解決已有資料倉庫的效能瓶頸問題;在業務層面,大資料平臺體系的資料倉庫能夠利用資料創造更多的業務價值,為銀行經營決策者制定方案提供更合理的資料參考。

一、大資料對銀行資料管理的挑戰


在日益激烈的國際、國內行業競爭環境下,商業銀行努力優化服務結構、迅速響應市場變化、精細化管理決策,以求在新環境下抓住新機遇。在這一背景下,商業銀行逐漸尋求技術突破,通過科技驅動業務變革、提升業務價值,走在行業前列。但應看到,在網際網路、大資料技術日新月異的今天,商業銀行面臨著諸多挑戰

首先,商業銀行面臨著全量、多維、更新迭代迅速的資料衝擊,對資料的採集、儲存、應用、分析、管控、擴容均提出了新的挑戰。雖然資料倉庫系統在商業銀行已發展十餘年,但由於單節點處理能力較弱,以Scale-up縱向擴容方法提升硬體能力的方式成本高昂,效能提升有限,已無法滿足業務快速發展的需要。

其次,隨著商業銀行業務日益多樣化、複雜化,業務系統越來越多,資料孤島效應凸顯,資料系統分開建設,資料架構設計中的職責劃分不合理,系統之間存在重複加工、統計口徑不一致、大量資料冗餘的現象,系統之間無法形成協同效應。

最後,由於商業銀行業務場景的變化,業務部門對於實時決策的要求越來越強烈。例如,實時精準營銷、實時風險預警,都要求資料倉庫有高併發、低延遲、非結構化的資料處理能力。而傳統資料倉庫由於技術架構上的天然侷限難以滿足此類場景的資料探索需求。

二、恆豐銀行大資料平臺建設實踐

恆豐銀行處於業務發展的新階段,新業務模式的創新對資料資訊服務的總體能力提出了新的要求,需要一個低成本可線性擴充套件的統一資料處理平臺,解決企業多個數據應用形成資料孤島,導致資料資源難以共享、資料標準不一、存在大量冗餘資料的問題。但現有的主流資料庫技術因為系統架構陳舊已經不能滿足業務發展需要,開源大資料技術在商業銀行企業級應用場景下還有諸多不完善的地方。

2015年,恆豐銀行在開源軟體、國產大資料平臺的基礎上,自主設計開發建設企業級大資料應用平臺,利用全新的大資料平臺技術全面重構了企業資料倉庫應用,滿足海量結構化與非結構化資料的低成本加工儲存、快速統計分析、業務模型探索、實時分析與決策等需求。結合大資料技術服務能力,升級改造原有的渠道、授信管理、審計、客戶管理等系統,在客戶服務、風險管理、內部管控、流程優化、營銷管理等多個業務領域提升恆豐銀行的運營效率和市場競爭力。

1.資料倉庫技術平臺選型

基於銀行當前應用資料能力的要求,新一代企業級資料倉庫應具備如下技術能力:

(1)支撐海量資料儲存和低延遲聯機查詢,將企業主要資料匯聚到一個平臺上,支援大併發的低延遲聯機查詢,這也是一般企業應用大資料能力的初步目標。

(2)支援統計分析應用,包括即席業務統計報表、多維業務資料分析、客戶群體細分等應用,一般可替代傳統資料倉庫的主體功能。

(3)資料探索與業務預測。支援業務分析團隊的資料探索和業務建模實驗,實現諸如業務趨勢預測、客戶行為預測等高階應用。

(4)決策支援能力。通過應用決策樹、規則推理引擎、運籌優化技術,實現客戶定價、風險預警等領域特定業務問題的機器自動化流程管理和簡單人機互動方式的輔助業務決策支援應用。

(5)自主學習能力。通過引入深度學習網路、知識圖譜、遺傳演化等智慧技術構建相對複雜的機器智慧學習體系,能從海量資料中提煉高價值資訊,構建自主訓練與反饋、可不斷從最新資料中調整演化的智慧業務模型體系。

以Hadoop/Spark為代表的大規模資料處理技術為超越傳統資料庫的處理侷限性提供了先進的平行計算和資源排程框架。在經過充分評測後恆豐銀行最終確定採用Hadoop/Spark架構作為新一代企業大資料平臺的基礎設施元件。

該平臺具備高模組化和鬆耦合架構,針對不同的應用領域通過元件之間的靈活組合與高效協作來提供定製化的大資料平臺支撐;此外,平臺已全面支援SQL、PL/SQL標準資料庫語言及Oracle、DB2、MySQL、SQLServer等多種銀行傳統應用資料庫,結合自身資料探勘與機器學習元件,能夠構建起強大的資料分析生態系統。

2.大資料平臺層次化架構設計

基於大資料平臺構建的新一代資料倉庫的整體架構(如圖1所示包括如下層級結構),完成對資料來源儲存、加工、應用、輸出、資料管理等各層面的重構。

(1)源系統結構化資料:源系統按大資料平臺的供數規範要求提供表資料文字和標誌檔案。

(2)檔案交換區FSA:檔案的交換中樞,含源系統結構化資料和半結構化、非結構化資料(主要是外部資料)。

(3)源資料快取區ODM:結構化資料接入,線上資料平臺的源資料歷史層HDM、基礎資料模型層的資料來源。

(4)源資料歷史層HDM:源資料快取區資料接入。

(5)基礎資料模型層FDM:源資料按資料倉庫模型加工後儲存,源資料快取區資料接入,公共資料模型層CDM的主要資料來源。僅大資料平臺各資料層資料儲存和內部流轉用。

(6)公共資料模型層CDM:聚焦客戶營銷和風險管理的銀行資訊資產加工和儲存,源資料快取區、基礎資料模型層資料接入,資料服務介面的主要資料來源。

(7)資料服務介面DSI:線上資料平臺的對外資料服務介面,源資料歷史層、公共資料模型層資料接入,BI應用集市的唯一資料來源。

(8)歷史資料服務介面:歷史資料平臺的對外資料服務介面,源資料歷史層、公共資料模型層資料接入,各類查詢應用的唯一資料來源。

(9)綜合監管集市:試點應用銀監標準化EAST所在的綜合監管集市,資料服務介面的資料接入,綜合監管應用的唯一資料來源。

(10)資料分析集市:BI統計分析類應用所在的資料集市,公共資料彙總層ADM的加工和儲存,資料服務介面的資料接入。

(11)統一排程平臺:大資料平臺ETL過程的統一作業排程監控,包括:排程、監控、日誌、處理四部分內容。

3.原關鍵資料倉庫應用遷移

新一代資料倉庫邏輯架構主要包括線上資料平臺與歷史資料平臺兩部分。線上資料平臺將對原有資料倉庫的體系進行重構,向業務人員提供更多更全的業務資料及更加高效便捷的模型資料。歷史資料平臺實現對歷史資料的永久儲存,並能夠提供給使用者歷史資料查詢的資料服務介面。

應用遷移的主要目標是建設線上資料平臺、歷史資料平臺,設計公共資料模型,並實現銀監標準化系統(EAST)的資料切換。整體設計思路分為資料移植、線上資料平臺、歷史資料平臺、銀監標準化(EAST)四個部分。

(1)梳理資料移植流程

①利用Sqoop技術連線原資料倉庫抽取資料到hdfs檔案系統;

②將原資料倉庫的資料抽取到hdfs檔案系統後,在大資料平臺中構建對映在這些資料檔案上的外表,其表結構與原資料倉庫表結構一致;

③在構建外表後,資料平臺已可以查詢到原資料倉庫的資料,為構建資料平臺的HDM層源資料備份,還需將這部分的資料進行還原操作。

資料移植流程如圖2所示。

(2)建立線上資料平臺

線上資料平臺集中了源資料緩衝層、源資料歷史層、基礎資料模型層和公共資料模型層。源資料緩衝層作為外部業務系統資料接入層,單日快取業務系統每日資料,供歷史明細層程式處理已存入基礎資料平臺。源資料歷史層是對業務系統源資料進行初步清理後,粗放在資料平臺中,保留歷史原貌。基礎資料模型層保留了原資料倉庫部分基礎資料模型,以支援公共資料模型及其他應用資料需求,儲存模型歷史資料。公共資料模型層為資料倉庫的主體資料體,是支撐資料彙總、資料分析的多緯度資料集市。

(3)建立歷史資料平臺

歷史資料平臺是線上資料平臺的資料備份,實現每日資料同步。歷史資料平臺源資料備份結構與線上資料平臺一致,儲存永久資料。歷史資料平臺公共資料模型備份結構與線上資料平臺一致,永久儲存資料。並依託公共資料模型的歷史,構建歷史資料查詢服務模型介面。

(4)重構銀監標準化(EAST)應用

銀監標準化EAST系統改造內容主要是資料連線改造(JDBC-hadoop)和引數配置調整,不包括系統功能和流程。由於EAST系統資料結構為Oracle表,儲存過程為Oracle儲存過程,需根據大資料平臺的特性對錶結構進行重構,支援大資料平臺的儲存過程格式,並進行資料移植。

4.注重公共模型開發

恆豐銀行當前資料倉庫存在應用離散、冗餘資料加工、資源緊張等問題。所以,公共資料模型的建設需要統一需求管控,建立更大的專案資源池,減少重複開發,規劃應用方向;統一計算口徑,減少資料冗餘和資料複製,減少重複資料加工;同時,能夠滿足不同應用場景的共性需求,穩妥推進新技術應用。公共資料模型層建設原則如圖3所示。

在主題模型領域,根據主題+業務方式進行資料儲存,以具體業務為依據提練主題要素,涵蓋客戶、事件、產品、作業、財務績效、資產管理、市場與公共元資訊(如費率、利率與匯率)。依據可重用性、安全性、高可用性、可管理性、可擴充套件性、高效能的設計原則,採取總體規劃、分層實現的方式。以底層軟硬體與資料相結合,需求與問題驅動,建設良好公共資料模型層,便於資料更直觀完善的展現,為業務和決策人員的分析決策提供良好的支援。公共資料模型層的整體規劃如圖4所示。

構建公共模型層,資料來源主要包括行內資料、同業資料和外部資料三大部分。

(1)行內資料:行內的業務系統、管理系統資料包括核心、企貸、個貸、國結等數十個源系統資料。九大類資料整合為公共資料模型七大主題,根據相應主題+業務劃分對源資料進行重新整合分類歸總。

(2)同業資料:同業資料包括監管當局和其他銀行披露的各項業務指標——規模資料、盈利資料、風險資料。

(3)外部資料:從外部採購或抓取的資料,如徵信、輿情、巨集觀資料。

5.開發專業資料集市與資料應用

恆豐銀行詳細規劃了各管理分析領域的業務應用場景,形成了營銷主題、風險主題、客戶主題、資訊主題、運營主題、績效主題等專業共享資料集市,為具體管理分析域的業務應用提供了基礎明細層、共享加工層、結果資料儲存和對外服務介面。

在資料應用方面,大資料平臺專案一期已經陸續構建了信貸工廠、報表平臺、精準營銷、全面風險預警、客戶關係管理CRM、財富管理系統、大資料資訊平臺、反欺詐、信用卡交易監測、資料視覺化、客戶生命週期管理、運營風險監測等40多個上層應用。在二期專案規劃中,還包括決策管理引擎、使用者畫像與營銷推送、實時風險監控等資料應用,充分發揮大資料平臺在海量資料計算、非結構化資料處理、實時流資料處理、記憶體計算與列式儲存等領域的能力與優勢。

通過大資料平臺的業務建模能力,為全行資料價值發現提供了領域技術基礎;通過資料探索、機器學習模型與演算法,為業務部門從行內外海量資料中尋找價值突破口提供實踐依據。

三、大資料平臺建設取得的成效

目前,基於大資料平臺的資料倉庫已全面上線,並支撐全行統一資料管理與資料服務。通過本次專案的技術實踐和應用系統的逐步落地,恆豐銀行實現了成本管理與業務管控的雙效提升。

在經濟效益層面,經初步估計,企業資料應用的總體硬體投入成本將降為原來的1/5~1/10,資料庫軟體授權許可費更是隻有原來的1/20;同時由於各應用建構在同一個資料平臺,每個應用減少了大量的共性資料加工和資料共享程式碼開發,軟體開發成本也得到了降低,預計每年為恆豐銀行節約上千萬元的軟硬體投入和系統運維成本。

在生產效率層面,原有傳統資料倉庫的大資料量跑批處理往往需要4~5小時,新一代大資料平臺的分散式計算能力,結合記憶體處理技術,處理同樣資料量級的工作僅需數十分鐘,大大提升了營銷、風控、運營等業務流程的響應能力。

考慮到系統實現的新技術能力以及業務分析團隊獲得更高時效性的資料資源和更快的資料分析和建模能力,能創造的隱性業務價值也是非常可觀的。

大資料平臺逐漸成為全行資料管控的樞紐和壓艙石。恆豐銀行通過大資料平臺構建資料倉庫的專案實踐,逐漸建立全行資料綜合服務體系,即報表和查詢體系、基於專業引擎的資料計算訪問體系、資料分析服務體系、資料探勘體系,最終形成了資料應用價值到終端使用者的合理傳導機制。